En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
E-commerce Text Classification
Texte

E-commerce Text Classification

Ce dataset contient plus de 50 000 descriptions de produits issues de sites e-commerce, réparties en 4 catégories : Électronique, Livres, Maison et Vêtements. Il est idéal pour des tâches de classification automatique de texte.

Télécharger le dataset
Taille

50 425 entrées texte en CSV, 4 classes

Licence

Attribution 4.0 International (CC BY 4.0)

Description

Le dataset E-commerce Text Classification est un corpus de 50 425 entrées textuelles associées à quatre grandes catégories de produits : Électronique, Livres, Maison, Vêtements & Accessoires. Chaque ligne contient une description produit accompagnée de sa catégorie cible, ce qui permet un apprentissage supervisé efficace.

À quoi sert ce dataset ?

  • Entraîner des modèles NLP à classer des produits selon leur description
  • Mettre en place un moteur de catégorisation automatique dans une plateforme e-commerce
  • Tester des algorithmes de classification textuelle supervisée

Peut-on l’enrichir ou l’améliorer ?

Oui. Il est possible d’ajouter des sous-catégories, d’intégrer des métadonnées (prix, avis, etc.), ou encore d’utiliser des techniques de paraphrasage pour augmenter la diversité linguistique du corpus. Des modèles multilingues peuvent aussi être testés en traduisant les données.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (CSV prêt à l’emploi)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Faible – texte bien structuré)
🏷️ Richesse des annotations⭐⭐⭐✩✩ (Moyenne – classification binaire simple)
📜 Licence commerciale✅ Oui (CC BY 4.0)
👨‍💻 Idéal pour les débutants🌟 Très adapté pour apprentissage supervisé
🔁 Réutilisable en fine-tuning🎯 Compatible avec BERT, RoBERTa, etc.
🌍 Diversité culturelle⚠️ Limité – descriptions typiques du e-commerce standard

🧠 Recommandé pour

  • NLP débutant
  • Prototypage e-commerce
  • Benchmark classification texte

🔧 Outils compatibles

  • Scikit-learn
  • SpaCy
  • Hugging Face Transformers
  • FastText

💡 Astuce

Utilisez des embeddings contextuels pour améliorer la performance de votre classifieur.

Questions fréquemment posées

Ce dataset est-il adapté à une classification multicatégorie ?

Non, chaque description est associée à une seule catégorie parmi les quatre proposées, ce qui en fait un dataset de classification simple.

Peut-on utiliser ce dataset pour entraîner un modèle multilingue ?

Oui, en traduisant les descriptions dans plusieurs langues, on peut adapter le dataset à des tâches de NLP multilingues.

Le dataset contient-il d’autres métadonnées produit ?

Non, il ne contient que les descriptions et les catégories associées. D’autres données peuvent être ajoutées manuellement pour enrichir le corpus.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.