GoEmotions
GoEmotions est un jeu de données textuel comprenant des commentaires Reddit annotés pour 27 émotions distinctes ou neutres. Il permet d'entraîner des modèles sur des émotions complexes dans un contexte réel.
Environ 58'000 exemples en texte brut avec annotations multi-label (JSON)
Apache 2.0
Description
GoEmotions est un dataset construit à partir de commentaires Reddit annotés manuellement pour identifier l’émotion exprimée. Chaque entrée peut être associée à plusieurs émotions parmi 27 catégories distinctes ou être neutre. Il s’agit d’un corpus riche pour la classification émotionnelle, avec des cas complexes et réalistes.
À quoi sert ce dataset ?
- Entraîner des modèles de détection des émotions à partir de texte
- Développer des chatbots empathiques ou des assistants virtuels plus humains
- Améliorer la modération automatique et la détection de discours sensibles
Peut-on l’enrichir ou l’améliorer ?
Oui, on peut compléter le dataset avec d’autres sources de commentaires sociaux, ou le traduire dans d’autres langues. Il est aussi possible d’ajouter des contextes conversationnels ou de combiner les données avec des métadonnées (ex. sous-reddit) pour affiner les modèles émotionnels. Des annotations supplémentaires comme l’intensité émotionnelle pourraient également être intégrées.
🔎 En résumé
🧠 Recommandé pour
- Projets de détection d’émotions
- Assistants conversationnels
- Recherche NLP sociale
🔧 Outils compatibles
- Hugging Face Transformers
- Scikit-learn
- PyTorch
- TensorFlow
- SpaCy
💡 Astuce
Entraînez d’abord un modèle sur GoEmotions puis affinez-le avec des données spécifiques à votre domaine (ex. SAV, forums, etc.)
Questions fréquemment posées
Le dataset GoEmotions couvre-t-il plusieurs langues ?
Non, il est entièrement en anglais, mais il est possible de le traduire manuellement ou automatiquement pour des cas multilingues.
Peut-on utiliser GoEmotions dans des projets commerciaux ?
Oui, la licence Apache 2.0 permet un usage commercial, sous réserve de respecter les conditions standard de la licence.
Ce dataset contient-il des biais ?
Oui, comme toute donnée issue des réseaux sociaux, il peut contenir des biais liés à Reddit et à ses utilisateurs. Il est important d’en tenir compte lors de l’interprétation des résultats.