E-commerce Text Classification
Este conjunto de datos contiene más de 50 000 descripciones de productos de sitios de comercio electrónico, divididas en 4 categorías: electrónica, libros, hogar y ropa. Es ideal para las tareas de clasificación automática de textos.
50.425 entradas de texto en CSV, 4 clases
Atribución 4.0 Internacional (CC BY 4.0)
Descripción
El conjunto de datos E-commerce Text Classification es un corpus de 50.425 entradas de texto asociadas a cuatro categorías principales de productos: electrónica, libros, hogar, ropa y accesorios. Cada línea contiene una descripción del producto junto con su categoría objetivo, lo que permite un aprendizaje supervisado eficaz.
¿Para qué sirve este conjunto de datos?
- Entrene modelos de PNL para clasificar los productos según su descripción
- Configurar un motor de categorización automática en una plataforma de comercio electrónico
- Probar algoritmos de clasificación de texto supervisados
¿Se puede enriquecer o mejorar?
Sí. Es posible añadir subcategorías, integrar metadatos (precios, reseñas, etc.) o utilizar técnicas de paráfrasis para aumentar la diversidad lingüística del corpus. Los modelos multilingües también se pueden probar traduciendo datos.
🔎 En resumen
🧠 Recomendado para
- Principiante en PNL
- Prototipos de comercio electrónico
- Clasificación de textos de referencia
🔧 Herramientas compatibles
- Scikit-learn
- SpaCy
- Hugging Face Transformers
- FastText
💡 Consejo
Utilice incrustaciones contextuales para mejorar el rendimiento de su clasificador.
Preguntas frecuentes
¿Este conjunto de datos es adecuado para la clasificación de varias categorías?
No, cada descripción está asociada a una sola categoría de las cuatro propuestas, lo que la convierte en un conjunto de datos de clasificación simple.
¿Se puede usar este conjunto de datos para entrenar un modelo multilingüe?
Sí, al traducir las descripciones a varios idiomas, puede adaptar el conjunto de datos a las tareas de PNL multilingües.
¿El conjunto de datos contiene metadatos de producto adicionales?
No, solo contiene descripciones y categorías asociadas. Se pueden agregar otros datos manualmente para enriquecer el corpus.




