Go Emotions
GoEmotions es un conjunto de datos basado en texto con comentarios de Reddit anotados para 27 emociones distintas o neutrales. Permite entrenar modelos sobre emociones complejas en un contexto real.
Aproximadamente 58.000 ejemplos de texto sin formato con anotaciones de múltiples etiquetas (JSON)
Apache 2.0
Descripción
Go Emotions es un conjunto de datos creado a partir de comentarios de Reddit que se anotan manualmente para identificar la emoción expresada. Cada entrada puede asociarse con varias emociones entre 27 categorías distintas o ser neutral. Es un corpus rico para la clasificación emocional, con casos complejos y realistas.
¿Para qué sirve este conjunto de datos?
- Entrenamiento de modelos de detección de emociones a partir del texto
- Desarrolla chatbots empáticos o asistentes virtuales más humanos
- Mejore la moderación automática y la detección de voz sensible
¿Se puede enriquecer o mejorar?
Sí, puedes completar el conjunto de datos con otras fuentes de comentarios sociales o traducirlo a otros idiomas. También es posible añadir contextos conversacionales o combinar datos con metadatos (por ejemplo, un subreddit) para refinar los modelos emocionales. También se podrían incorporar anotaciones adicionales, como la intensidad emocional.
🔎 En resumen
🧠 Recomendado para
- Proyectos de detección de emociones
- Asistentes conversacionales
- Búsqueda de PNL social
🔧 Herramientas compatibles
- Transformers Huggging Face
- Scikit-learn
- PyTorch
- TensorFlow
- Espacio Y
💡 Consejo
Primero, entrena un modelo en GoEmotions y luego refinalo con datos específicos de tu campo (por ejemplo, servicio, foros, etc.)
Preguntas frecuentes
¿El conjunto de datos de GoEmotions cubre varios idiomas?
No, está completamente en inglés, pero es posible traducirlo manual o automáticamente para casos multilingües.
¿Se puede usar GoEmotions en proyectos comerciales?
Sí, la licencia Apache 2.0 permite el uso comercial, siempre que se cumplan los términos estándar de la licencia.
¿Este conjunto de datos contiene sesgos?
Sí, como cualquier dato de redes sociales, puede contener sesgos relacionados con Reddit y sus usuarios. Es importante tener esto en cuenta a la hora de interpretar los resultados.