Civil Comments - Corpus de commentaires modérés et annotés pour toxicité
Le dataset Civil Comments contient un large ensemble de commentaires publics modérés collectés entre 2015 et 2017, annotés pour divers types de toxicité et abus. Il est utilisé pour entraîner et évaluer des modèles de modération automatique et d’analyse de la civilité en ligne.
Environ 2 millions de commentaires textuels au format JSON, avec labels de toxicité et types d’abus
CC0-1.0
Description
Civil Comments (Google) est un corpus massif de commentaires en anglais issus d’un plugin de commentaires pour sites d’actualité. Chaque commentaire est annoté pour différents types de toxicité (toxicité générale, insultes, menaces, attaques identitaires, etc.).
À quoi sert ce dataset ?
- Entraîner des modèles de détection de toxicité et modération automatisée
- Analyser les dynamiques d’interactions hostiles en ligne
- Tester des systèmes de classification multiclasse et multilabel sur des textes longs
Peut-on l’enrichir ou l’améliorer ?
Oui, il est possible d’ajouter des annotations complémentaires (ex. nuances émotionnelles) ou d’étendre le corpus avec des commentaires d’autres langues. Le nettoyage ciblé peut améliorer la qualité pour certains usages.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en NLP
- Développeurs d’outils de modération
- Analystes de réseaux sociaux
🔧 Outils compatibles
- Hugging Face Transformers
- TensorFlow
- PyTorch
- SpaCy
💡 Astuce
Utiliser des techniques de suréchantillonnage pour les classes rares afin d’équilibrer le dataset lors de l’entraînement.
Questions fréquemment posées
Quelle taille fait le dataset Civil Comments ?
Il contient environ 2 millions de commentaires annotés.
Quelles annotations sont disponibles dans ce dataset ?
Le dataset comprend des labels pour toxicité, insultes, menaces, attaques identitaires, contenus sexuels explicites, etc.
Peut-on utiliser ce dataset pour modérer des commentaires dans d’autres langues ?
Ce dataset est uniquement en anglais, mais la méthodologie peut être adaptée à d’autres langues avec des corpus similaires.




