Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
E-commerce Text Classification
Texto

E-commerce Text Classification

Este conjunto de datos contiene más de 50 000 descripciones de productos de sitios de comercio electrónico, divididas en 4 categorías: electrónica, libros, hogar y ropa. Es ideal para las tareas de clasificación automática de textos.

Obtén el dataset
Tamaño

50.425 entradas de texto en CSV, 4 clases

Licencia

Atribución 4.0 Internacional (CC BY 4.0)

Descripción

El conjunto de datos E-commerce Text Classification es un corpus de 50.425 entradas de texto asociadas a cuatro categorías principales de productos: electrónica, libros, hogar, ropa y accesorios. Cada línea contiene una descripción del producto junto con su categoría objetivo, lo que permite un aprendizaje supervisado eficaz.

¿Para qué sirve este conjunto de datos?

  • Entrene modelos de PNL para clasificar los productos según su descripción
  • Configurar un motor de categorización automática en una plataforma de comercio electrónico
  • Probar algoritmos de clasificación de texto supervisados

¿Se puede enriquecer o mejorar?

Sí. Es posible añadir subcategorías, integrar metadatos (precios, reseñas, etc.) o utilizar técnicas de paráfrasis para aumentar la diversidad lingüística del corpus. Los modelos multilingües también se pueden probar traduciendo datos.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (CSV listo para usar)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Bajo – texto bien estructurado)
🏷️ Riqueza de anotaciones⭐⭐⭐✩✩ (Moderado – clasificación binaria simple)
📜 Licencia comercial✅ Sí (CC BY 4.0)
👨‍💻 Ideal para principiantes🌟 Muy adecuado para aprendizaje supervisado
🔁 Reutilizable para fine-tuning🎯 Compatible con BERT, RoBERTa, etc.
🌍 Diversidad cultural⚠️ Limitado – descripciones típicas del e-commerce estándar

🧠 Recomendado para

  • Principiante en PNL
  • Prototipos de comercio electrónico
  • Clasificación de textos de referencia

🔧 Herramientas compatibles

  • Scikit-learn
  • SpaCy
  • Hugging Face Transformers
  • FastText

💡 Consejo

Utilice incrustaciones contextuales para mejorar el rendimiento de su clasificador.

Preguntas frecuentes

¿Este conjunto de datos es adecuado para la clasificación de varias categorías?

No, cada descripción está asociada a una sola categoría de las cuatro propuestas, lo que la convierte en un conjunto de datos de clasificación simple.

¿Se puede usar este conjunto de datos para entrenar un modelo multilingüe?

Sí, al traducir las descripciones a varios idiomas, puede adaptar el conjunto de datos a las tareas de PNL multilingües.

¿El conjunto de datos contiene metadatos de producto adicionales?

No, solo contiene descripciones y categorías asociadas. Se pueden agregar otros datos manualmente para enriquecer el corpus.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.