Civil Comments - Corpus de commentaires modérés et annotés pour toxicité

Le dataset Civil Comments contient un large ensemble de commentaires publics modérés collectés entre 2015 et 2017, annotés pour divers types de toxicité et abus. Il est utilisé pour entraîner et évaluer des modèles de modération automatique et d’analyse de la civilité en ligne.

Télécharger le dataset

Taille

Environ 2 millions de commentaires textuels au format JSON, avec labels de toxicité et types d’abus

Licence

CC0-1.0

Description

‍

Civil Comments (Google) est un corpus massif de commentaires en anglais issus d’un plugin de commentaires pour sites d’actualité. Chaque commentaire est annoté pour différents types de toxicité (toxicité générale, insultes, menaces, attaques identitaires, etc.).

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de détection de toxicité et modération automatisée
Analyser les dynamiques d’interactions hostiles en ligne
Tester des systèmes de classification multiclasse et multilabel sur des textes longs

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’ajouter des annotations complémentaires (ex. nuances émotionnelles) ou d’étendre le corpus avec des commentaires d’autres langues. Le nettoyage ciblé peut améliorer la qualité pour certains usages.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐✩ (Données standardisées et documentées)
🧼 Besoin de nettoyage	⭐⭐⭐✩✩ (Modéré – présence de doublons et de textes non pertinents possibles)
🏷️ Richesse des annotations	⭐⭐⭐⭐✩ (Labels multicritères sur différents types de toxicité)
📜 Licence commerciale	✅ Oui (CC0)
👨‍💻 Idéal pour les débutants	🌟 Oui, très utilisé dans les tutoriels NLP
🔁 Réutilisable en fine-tuning	🎯 Parfait pour entraînement de modèles de classification et modération
🌍 Diversité culturelle	⚡ Limité à l’anglais, mais corpus large et divers