E-commerce Text Classification
Ce dataset contient plus de 50 000 descriptions de produits issues de sites e-commerce, réparties en 4 catégories : Électronique, Livres, Maison et Vêtements. Il est idéal pour des tâches de classification automatique de texte.
50 425 entrées texte en CSV, 4 classes
Attribution 4.0 International (CC BY 4.0)
Description
Le dataset E-commerce Text Classification est un corpus de 50 425 entrées textuelles associées à quatre grandes catégories de produits : Électronique, Livres, Maison, Vêtements & Accessoires. Chaque ligne contient une description produit accompagnée de sa catégorie cible, ce qui permet un apprentissage supervisé efficace.
À quoi sert ce dataset ?
- Entraîner des modèles NLP à classer des produits selon leur description
- Mettre en place un moteur de catégorisation automatique dans une plateforme e-commerce
- Tester des algorithmes de classification textuelle supervisée
Peut-on l’enrichir ou l’améliorer ?
Oui. Il est possible d’ajouter des sous-catégories, d’intégrer des métadonnées (prix, avis, etc.), ou encore d’utiliser des techniques de paraphrasage pour augmenter la diversité linguistique du corpus. Des modèles multilingues peuvent aussi être testés en traduisant les données.
🔎 En résumé
🧠 Recommandé pour
- NLP débutant
- Prototypage e-commerce
- Benchmark classification texte
🔧 Outils compatibles
- Scikit-learn
- SpaCy
- Hugging Face Transformers
- FastText
💡 Astuce
Utilisez des embeddings contextuels pour améliorer la performance de votre classifieur.
Questions fréquemment posées
Ce dataset est-il adapté à une classification multicatégorie ?
Non, chaque description est associée à une seule catégorie parmi les quatre proposées, ce qui en fait un dataset de classification simple.
Peut-on utiliser ce dataset pour entraîner un modèle multilingue ?
Oui, en traduisant les descriptions dans plusieurs langues, on peut adapter le dataset à des tâches de NLP multilingues.
Le dataset contient-il d’autres métadonnées produit ?
Non, il ne contient que les descriptions et les catégories associées. D’autres données peuvent être ajoutées manuellement pour enrichir le corpus.




