Women’s E-Commerce Clothing Reviews
Ce dataset regroupe les avis de clientes sur des produits vestimentaires, comprenant texte libre, notes, recommandation, âge et autres informations. Il permet de travailler sur des problématiques de NLP, de classification d’opinion, ou encore d’analyse des comportements d’achat.
23 486 lignes au format CSV, données textuelles et catégorielles
CC0: Public Domain
Description
Le dataset Women’s E-Commerce Clothing Reviews contient 23 486 avis rédigés par des clientes sur des vêtements achetés en ligne. Chaque ligne correspond à un retour client incluant des informations telles que la note attribuée, l’âge, un résumé, le texte de l’avis, et une indication sur la recommandation du produit. Toutes les données sont anonymisées, avec suppression des références à la marque.
À quoi sert ce dataset ?
- Entraîner des modèles d’analyse de sentiment ou de classification d’avis
- Réaliser des études sur l’expérience client selon l’âge ou la catégorie de produit
- Explorer des approches NLP comme BERT, TF-IDF, ou Word2Vec sur des données réelles
Peut-on l’enrichir ou l’améliorer ?
Oui, on peut par exemple croiser ces avis avec des données externes (prix, stock, retours), générer des labels supplémentaires (positif, neutre, négatif) à partir du texte, ou encore traduire et adapter les données à d’autres langues pour un usage multilingue. L’ajout d’un prétraitement lexical améliore aussi les performances des modèles.
🔎 En résumé
🧠 Recommandé pour
- Analystes marketing
- Étudiants en NLP
- Développeurs de systèmes de recommandation
🔧 Outils compatibles
- Hugging Face Transformers
- Scikit-learn
- SpaCy
- NLTK
💡 Astuce
Pour améliorer la détection de sentiments, combiner le score de recommandation binaire avec l’analyse sémantique du texte.
Questions fréquemment posées
Peut-on utiliser ce dataset pour entraîner un modèle de recommandation ?
Oui, les variables de note, de recommandation et les caractéristiques produit permettent de modéliser des systèmes de suggestion.
Le texte des avis contient-il des noms de marque ou d’entreprise ?
Non, toutes les mentions ont été anonymisées et remplacées par “retailer”.
Est-il adapté à l’analyse multilingue ?
Non, le dataset est en anglais uniquement, mais il peut être traduit ou enrichi pour une analyse multilingue.