Go Emotions

GoEmotions es un conjunto de datos basado en texto con comentarios de Reddit anotados para 27 emociones distintas o neutrales. Permite entrenar modelos sobre emociones complejas en un contexto real.

Obtén el dataset

Tamaño

Aproximadamente 58.000 ejemplos de texto sin formato con anotaciones de múltiples etiquetas (JSON)

Licencia

Apache 2.0

Descripción

‍

Go Emotions es un conjunto de datos creado a partir de comentarios de Reddit que se anotan manualmente para identificar la emoción expresada. Cada entrada puede asociarse con varias emociones entre 27 categorías distintas o ser neutral. Es un corpus rico para la clasificación emocional, con casos complejos y realistas.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrenamiento de modelos de detección de emociones a partir del texto
Desarrolla chatbots empáticos o asistentes virtuales más humanos
Mejore la moderación automática y la detección de voz sensible

‍

¿Se puede enriquecer o mejorar?

‍

Sí, puedes completar el conjunto de datos con otras fuentes de comentarios sociales o traducirlo a otros idiomas. También es posible añadir contextos conversacionales o combinar datos con metadatos (por ejemplo, un subreddit) para refinar los modelos emocionales. También se podrían incorporar anotaciones adicionales, como la intensidad emocional.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐☆ (Formato JSON claro con etiquetas explícitas)
🧼Necesidad de limpieza	⭐⭐⭐⭐⭐ (Muy baja, datos listos para usar)
🏷️Riqueza de anotaciones	⭐⭐⭐⭐☆ (Multi-etiqueta con 28 categorías emocionales)
📜Licencia comercial	✅ Sí (Apache 2.0)
👨‍💻Ideal para principiantes	👩‍💻 Muy adecuado, dataset bien documentado
🔁Reutilizable en fine-tuning	🔥 Excelente base para modelos emocionales
🌍Diversidad cultural	🌐 Moderada, solo en inglés y sesgo Reddit

‍

🧠 Recomendado para

Proyectos de detección de emociones
Asistentes conversacionales
Búsqueda de PNL social

‍

🔧 Herramientas compatibles

Transformers Huggging Face
Scikit-learn
PyTorch
TensorFlow
Espacio Y

‍

💡 Consejo

Primero, entrena un modelo en GoEmotions y luego refinalo con datos específicos de tu campo (por ejemplo, servicio, foros, etc.)

Preguntas frecuentes

¿El conjunto de datos de GoEmotions cubre varios idiomas?

No, está completamente en inglés, pero es posible traducirlo manual o automáticamente para casos multilingües.

¿Se puede usar GoEmotions en proyectos comerciales?

Sí, la licencia Apache 2.0 permite el uso comercial, siempre que se cumplan los términos estándar de la licencia.

¿Este conjunto de datos contiene sesgos?

Sí, como cualquier dato de redes sociales, puede contener sesgos relacionados con Reddit y sus usuarios. Es importante tener esto en cuenta a la hora de interpretar los resultados.

Otros datasets

Imagen

Face Detection Dataset

Texto

sQuad (conjunto de datos de respuestas a preguntas de Stanford)

Texto

MMLU