Civil Comments : corpus de comentarios moderados anotados por toxicidad

El conjunto de datos de comentarios civiles contiene un gran conjunto de comentarios públicos moderados recopilados entre 2015 y 2017, anotados para varios tipos de toxicidad y abuso. Se utiliza para entrenar y evaluar modelos de moderación automática y análisis de civilidad en línea.

Obtén el dataset

Tamaño

Aproximadamente 2 millones de comentarios de texto en formato JSON, con etiquetas de toxicidad y tipos de abuso

Licencia

CC0-1.0

Descripción

‍

Civil Comments es un corpus masivo de comentarios en inglés de un plugin de comentarios para sitios de noticias. Cada comentario está anotado en función de los diferentes tipos de toxicidad (toxicidad general, insultos, amenazas, ataques de identidad, etc.).

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene modelos de detección de toxicidad y moderación automatizada
Analizar la dinámica de las interacciones hostiles en línea
Probar sistemas de clasificación de múltiples clases y etiquetas en textos largos

‍

¿Se puede enriquecer o mejorar?

‍

Sí, es posible añadir anotaciones adicionales (por ejemplo, matices emocionales) o ampliar el corpus con comentarios de otros idiomas. La limpieza específica puede mejorar la calidad para ciertos usos.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐✩ (Datos estandarizados y documentados)
🧼 Necesidad de limpieza	⭐⭐⭐✩✩ (Moderado – posible presencia de duplicados y textos no relevantes)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐✩ (Etiquetas multicriterio sobre distintos tipos de toxicidad)
📜 Licencia comercial	✅ Sí (CC0)
👨‍💻 Ideal para principiantes	🌟 Sí, muy usado en tutoriales NLP
🔁 Reutilizable para fine-tuning	🎯 Perfecto para entrenar modelos de clasificación y moderación
🌍 Diversidad cultural	⚡ Limitado al inglés, pero corpus amplio y diverso