E-commerce Text Classification

Ce dataset contient plus de 50 000 descriptions de produits issues de sites e-commerce, réparties en 4 catégories : Électronique, Livres, Maison et Vêtements. Il est idéal pour des tâches de classification automatique de texte.

Télécharger le dataset

Taille

50 425 entrées texte en CSV, 4 classes

Licence

Attribution 4.0 International (CC BY 4.0)

Description

‍

Le dataset E-commerce Text Classification est un corpus de 50 425 entrées textuelles associées à quatre grandes catégories de produits : Électronique, Livres, Maison, Vêtements & Accessoires. Chaque ligne contient une description produit accompagnée de sa catégorie cible, ce qui permet un apprentissage supervisé efficace.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles NLP à classer des produits selon leur description
Mettre en place un moteur de catégorisation automatique dans une plateforme e-commerce
Tester des algorithmes de classification textuelle supervisée

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. Il est possible d’ajouter des sous-catégories, d’intégrer des métadonnées (prix, avis, etc.), ou encore d’utiliser des techniques de paraphrasage pour augmenter la diversité linguistique du corpus. Des modèles multilingues peuvent aussi être testés en traduisant les données.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐⭐ (CSV prêt à l’emploi)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible – texte bien structuré)
🏷️ Richesse des annotations	⭐⭐⭐✩✩ (Moyenne – classification binaire simple)
📜 Licence commerciale	✅ Oui (CC BY 4.0)
👨‍💻 Idéal pour les débutants	🌟 Très adapté pour apprentissage supervisé
🔁 Réutilisable en fine-tuning	🎯 Compatible avec BERT, RoBERTa, etc.
🌍 Diversité culturelle	⚠️ Limité – descriptions typiques du e-commerce standard