En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Civil Comments - Corpus de commentaires modérés et annotés pour toxicité
Texte

Civil Comments - Corpus de commentaires modérés et annotés pour toxicité

Le dataset Civil Comments contient un large ensemble de commentaires publics modérés collectés entre 2015 et 2017, annotés pour divers types de toxicité et abus. Il est utilisé pour entraîner et évaluer des modèles de modération automatique et d’analyse de la civilité en ligne.

Télécharger le dataset
Taille

Environ 2 millions de commentaires textuels au format JSON, avec labels de toxicité et types d’abus

Licence

CC0-1.0

Description

Civil Comments (Google) est un corpus massif de commentaires en anglais issus d’un plugin de commentaires pour sites d’actualité. Chaque commentaire est annoté pour différents types de toxicité (toxicité générale, insultes, menaces, attaques identitaires, etc.).

À quoi sert ce dataset ?

  • Entraîner des modèles de détection de toxicité et modération automatisée
  • Analyser les dynamiques d’interactions hostiles en ligne
  • Tester des systèmes de classification multiclasse et multilabel sur des textes longs

Peut-on l’enrichir ou l’améliorer ?

Oui, il est possible d’ajouter des annotations complémentaires (ex. nuances émotionnelles) ou d’étendre le corpus avec des commentaires d’autres langues. Le nettoyage ciblé peut améliorer la qualité pour certains usages.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐✩ (Données standardisées et documentées)
🧼 Besoin de nettoyage⭐⭐⭐✩✩ (Modéré – présence de doublons et de textes non pertinents possibles)
🏷️ Richesse des annotations⭐⭐⭐⭐✩ (Labels multicritères sur différents types de toxicité)
📜 Licence commerciale✅ Oui (CC0)
👨‍💻 Idéal pour les débutants🌟 Oui, très utilisé dans les tutoriels NLP
🔁 Réutilisable en fine-tuning🎯 Parfait pour entraînement de modèles de classification et modération
🌍 Diversité culturelle⚡ Limité à l’anglais, mais corpus large et divers

🧠 Recommandé pour

  • Chercheurs en NLP
  • Développeurs d’outils de modération
  • Analystes de réseaux sociaux

🔧 Outils compatibles

  • Hugging Face Transformers
  • TensorFlow
  • PyTorch
  • SpaCy

💡 Astuce

Utiliser des techniques de suréchantillonnage pour les classes rares afin d’équilibrer le dataset lors de l’entraînement.

Questions fréquemment posées

Quelle taille fait le dataset Civil Comments ?

Il contient environ 2 millions de commentaires annotés.

Quelles annotations sont disponibles dans ce dataset ?

Le dataset comprend des labels pour toxicité, insultes, menaces, attaques identitaires, contenus sexuels explicites, etc.

Peut-on utiliser ce dataset pour modérer des commentaires dans d’autres langues ?

Ce dataset est uniquement en anglais, mais la méthodologie peut être adaptée à d’autres langues avec des corpus similaires.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.