Civil Comments : corpus de comentarios moderados anotados por toxicidad
El conjunto de datos de comentarios civiles contiene un gran conjunto de comentarios públicos moderados recopilados entre 2015 y 2017, anotados para varios tipos de toxicidad y abuso. Se utiliza para entrenar y evaluar modelos de moderación automática y análisis de civilidad en línea.
Aproximadamente 2 millones de comentarios de texto en formato JSON, con etiquetas de toxicidad y tipos de abuso
CC0-1.0
Descripción
Civil Comments es un corpus masivo de comentarios en inglés de un plugin de comentarios para sitios de noticias. Cada comentario está anotado en función de los diferentes tipos de toxicidad (toxicidad general, insultos, amenazas, ataques de identidad, etc.).
¿Para qué sirve este conjunto de datos?
- Entrene modelos de detección de toxicidad y moderación automatizada
- Analizar la dinámica de las interacciones hostiles en línea
- Probar sistemas de clasificación de múltiples clases y etiquetas en textos largos
¿Se puede enriquecer o mejorar?
Sí, es posible añadir anotaciones adicionales (por ejemplo, matices emocionales) o ampliar el corpus con comentarios de otros idiomas. La limpieza específica puede mejorar la calidad para ciertos usos.
🔎 En resumen
🧠 Recomendado para
- Investigadores de PNL
- Desarrolladores de herramientas de moderación
- Analistas de redes sociales
🔧 Herramientas compatibles
- Hugging Face Transformers
- TensorFlow
- PyTorch
- SpaCy
💡 Consejo
Utilice técnicas de sobremuestreo en clases poco frecuentes para equilibrar el conjunto de datos durante el entrenamiento.
Preguntas frecuentes
¿Qué tamaño tiene el conjunto de datos de Civil Comments?
Contiene aproximadamente 2 millones de comentarios anotados.
¿Qué anotaciones están disponibles en este conjunto de datos?
El conjunto de datos incluye etiquetas de toxicidad, insultos, amenazas, ataques de identidad, contenido sexual explícito, etc.
¿Se puede usar este conjunto de datos para moderar comentarios en otros idiomas?
Este conjunto de datos solo está en inglés, pero la metodología se puede adaptar a otros idiomas con corpus similares.




