Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Civil Comments : corpus de comentarios moderados anotados por toxicidad
Texto

Civil Comments : corpus de comentarios moderados anotados por toxicidad

El conjunto de datos de comentarios civiles contiene un gran conjunto de comentarios públicos moderados recopilados entre 2015 y 2017, anotados para varios tipos de toxicidad y abuso. Se utiliza para entrenar y evaluar modelos de moderación automática y análisis de civilidad en línea.

Obtén el dataset
Tamaño

Aproximadamente 2 millones de comentarios de texto en formato JSON, con etiquetas de toxicidad y tipos de abuso

Licencia

CC0-1.0

Descripción

Civil Comments es un corpus masivo de comentarios en inglés de un plugin de comentarios para sitios de noticias. Cada comentario está anotado en función de los diferentes tipos de toxicidad (toxicidad general, insultos, amenazas, ataques de identidad, etc.).

¿Para qué sirve este conjunto de datos?

  • Entrene modelos de detección de toxicidad y moderación automatizada
  • Analizar la dinámica de las interacciones hostiles en línea
  • Probar sistemas de clasificación de múltiples clases y etiquetas en textos largos

¿Se puede enriquecer o mejorar?

Sí, es posible añadir anotaciones adicionales (por ejemplo, matices emocionales) o ampliar el corpus con comentarios de otros idiomas. La limpieza específica puede mejorar la calidad para ciertos usos.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐✩ (Datos estandarizados y documentados)
🧼 Necesidad de limpieza⭐⭐⭐✩✩ (Moderado – posible presencia de duplicados y textos no relevantes)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐✩ (Etiquetas multicriterio sobre distintos tipos de toxicidad)
📜 Licencia comercial✅ Sí (CC0)
👨‍💻 Ideal para principiantes🌟 Sí, muy usado en tutoriales NLP
🔁 Reutilizable para fine-tuning🎯 Perfecto para entrenar modelos de clasificación y moderación
🌍 Diversidad cultural⚡ Limitado al inglés, pero corpus amplio y diverso

🧠 Recomendado para

  • Investigadores de PNL
  • Desarrolladores de herramientas de moderación
  • Analistas de redes sociales

🔧 Herramientas compatibles

  • Hugging Face Transformers
  • TensorFlow
  • PyTorch
  • SpaCy

💡 Consejo

Utilice técnicas de sobremuestreo en clases poco frecuentes para equilibrar el conjunto de datos durante el entrenamiento.

Preguntas frecuentes

¿Qué tamaño tiene el conjunto de datos de Civil Comments?

Contiene aproximadamente 2 millones de comentarios anotados.

¿Qué anotaciones están disponibles en este conjunto de datos?

El conjunto de datos incluye etiquetas de toxicidad, insultos, amenazas, ataques de identidad, contenido sexual explícito, etc.

¿Se puede usar este conjunto de datos para moderar comentarios en otros idiomas?

Este conjunto de datos solo está en inglés, pero la metodología se puede adaptar a otros idiomas con corpus similares.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.