En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
GoEmotions
Texte

GoEmotions

GoEmotions est un jeu de données textuel comprenant des commentaires Reddit annotés pour 27 émotions distinctes ou neutres. Il permet d'entraîner des modèles sur des émotions complexes dans un contexte réel.

Télécharger le dataset
Taille

Environ 58'000 exemples en texte brut avec annotations multi-label (JSON)

Licence

Apache 2.0

Description

GoEmotions est un dataset construit à partir de commentaires Reddit annotés manuellement pour identifier l’émotion exprimée. Chaque entrée peut être associée à plusieurs émotions parmi 27 catégories distinctes ou être neutre. Il s’agit d’un corpus riche pour la classification émotionnelle, avec des cas complexes et réalistes.

À quoi sert ce dataset ?

  • Entraîner des modèles de détection des émotions à partir de texte
  • Développer des chatbots empathiques ou des assistants virtuels plus humains
  • Améliorer la modération automatique et la détection de discours sensibles

Peut-on l’enrichir ou l’améliorer ?

Oui, on peut compléter le dataset avec d’autres sources de commentaires sociaux, ou le traduire dans d’autres langues. Il est aussi possible d’ajouter des contextes conversationnels ou de combiner les données avec des métadonnées (ex. sous-reddit) pour affiner les modèles émotionnels. Des annotations supplémentaires comme l’intensité émotionnelle pourraient également être intégrées.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐☆ (Format JSON clair avec labels explicites)
🧼Besoin de nettoyage ⭐⭐⭐⭐⭐ (Très faible, données prêtes à l’emploi)
🏷️Richesse des annotations ⭐⭐⭐⭐☆ (Multi-label avec 28 catégories émotionnelles)
📜Licence commerciale ✅ Oui (Apache 2.0)
👨‍💻Idéal pour les débutants 👩‍💻 Très adapté, dataset bien documenté
🔁Réutilisable en fine-tuning 🔥 Excellente base pour des modèles émotionnels
🌍Diversité culturelle 🌐 Modérée, uniquement en anglais et biais Reddit

🧠 Recommandé pour

  • Projets de détection d’émotions
  • Assistants conversationnels
  • Recherche NLP sociale

🔧 Outils compatibles

  • Hugging Face Transformers
  • Scikit-learn
  • PyTorch
  • TensorFlow
  • SpaCy

💡 Astuce

Entraînez d’abord un modèle sur GoEmotions puis affinez-le avec des données spécifiques à votre domaine (ex. SAV, forums, etc.)

Questions fréquemment posées

Le dataset GoEmotions couvre-t-il plusieurs langues ?

Non, il est entièrement en anglais, mais il est possible de le traduire manuellement ou automatiquement pour des cas multilingues.

Peut-on utiliser GoEmotions dans des projets commerciaux ?

Oui, la licence Apache 2.0 permet un usage commercial, sous réserve de respecter les conditions standard de la licence.

Ce dataset contient-il des biais ?

Oui, comme toute donnée issue des réseaux sociaux, il peut contenir des biais liés à Reddit et à ses utilisateurs. Il est important d’en tenir compte lors de l’interprétation des résultats.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.