GoEmotions

GoEmotions est un jeu de données textuel comprenant des commentaires Reddit annotés pour 27 émotions distinctes ou neutres. Il permet d'entraîner des modèles sur des émotions complexes dans un contexte réel.

Télécharger le dataset

Taille

Environ 58'000 exemples en texte brut avec annotations multi-label (JSON)

Licence

Apache 2.0

Description

‍

GoEmotions est un dataset construit à partir de commentaires Reddit annotés manuellement pour identifier l’émotion exprimée. Chaque entrée peut être associée à plusieurs émotions parmi 27 catégories distinctes ou être neutre. Il s’agit d’un corpus riche pour la classification émotionnelle, avec des cas complexes et réalistes.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de détection des émotions à partir de texte
Développer des chatbots empathiques ou des assistants virtuels plus humains
Améliorer la modération automatique et la détection de discours sensibles

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, on peut compléter le dataset avec d’autres sources de commentaires sociaux, ou le traduire dans d’autres langues. Il est aussi possible d’ajouter des contextes conversationnels ou de combiner les données avec des métadonnées (ex. sous-reddit) pour affiner les modèles émotionnels. Des annotations supplémentaires comme l’intensité émotionnelle pourraient également être intégrées.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐☆ (Format JSON clair avec labels explicites)
🧼Besoin de nettoyage	⭐⭐⭐⭐⭐ (Très faible, données prêtes à l’emploi)
🏷️Richesse des annotations	⭐⭐⭐⭐☆ (Multi-label avec 28 catégories émotionnelles)
📜Licence commerciale	✅ Oui (Apache 2.0)
👨‍💻Idéal pour les débutants	👩‍💻 Très adapté, dataset bien documenté
🔁Réutilisable en fine-tuning	🔥 Excellente base pour des modèles émotionnels
🌍Diversité culturelle	🌐 Modérée, uniquement en anglais et biais Reddit

‍

🧠 Recommandé pour

Projets de détection d’émotions
Assistants conversationnels
Recherche NLP sociale

‍

🔧 Outils compatibles

Hugging Face Transformers
Scikit-learn
PyTorch
TensorFlow
SpaCy

‍

💡 Astuce

Entraînez d’abord un modèle sur GoEmotions puis affinez-le avec des données spécifiques à votre domaine (ex. SAV, forums, etc.)

Questions fréquemment posées

Le dataset GoEmotions couvre-t-il plusieurs langues ?

Non, il est entièrement en anglais, mais il est possible de le traduire manuellement ou automatiquement pour des cas multilingues.

Peut-on utiliser GoEmotions dans des projets commerciaux ?

Oui, la licence Apache 2.0 permet un usage commercial, sous réserve de respecter les conditions standard de la licence.

Ce dataset contient-il des biais ?

Oui, comme toute donnée issue des réseaux sociaux, il peut contenir des biais liés à Reddit et à ses utilisateurs. Il est important d’en tenir compte lors de l’interprétation des résultats.

Datasets similaires

Image

Art Portraits

Image

City Intersection Computer Vision Dataset

Video

Shoplifting Video Dataset