RAVDESS
RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song) es un conjunto de datos de referencia multimodal para el reconocimiento de emociones. Contiene grabaciones vocales y visuales de actores profesionales que expresan diferentes emociones a través del habla y el canto, en condiciones controladas.
7356 archivos de audio y vídeo, formatos WAV y MP4
Disponible de forma gratuita para investigación, bajo una licencia Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)
Descripción
El conjunto de datos incluye:
- 24 actores (12 hombres y 12 mujeres)
- 2 tipos de contenido: discurso hablado y cantado
- 8 emociones: calma, alegría, tristeza, enfado, miedo, sorpresa, asco, neutralidad
- 7.356 archivos en total (audio, vídeo, audiovisuales)
- Anotaciones precisas de emociones, intensidad, género y modalidad
Las grabaciones se realizan en el estudio, lo que garantiza una calidad óptima para el análisis de las señales de audio y visuales.
¿Para qué sirve este conjunto de datos?
RAVDESS se usa ampliamente para:
- Modelos de entrenamiento para reconocer las emociones de la voz o el rostro
- El desarrollo de asistentes de voz, chatbots o interfaces empáticas
- Análisis multimodal de las expresiones emocionales humanas
- La evaluación de los sistemas del habla a la emoción o de la visión a la emoción
- Proyectos de psicología computacional y neurociencia afectiva
¿Se puede enriquecer o mejorar?
Sí, estos son algunos de los ejes posibles:
- Combínelo con otros conjuntos de datos emocionales (CREMA-D, SAVEE) para aumentar la diversidad de hablantes
- Agregue ruido de fondo o filtros para probar la solidez de los modelos
- Extracción de espectrogramas o rasgos faciales para modelos híbridos de audio/vídeo
- Amplíe el análisis a emociones sutiles o expresiones culturales variadas
🔗 Fuente: Conjunto de datos RAVDESS
Preguntas frecuentes
¿Se puede usar RAVDESS en aplicaciones comerciales?
No, el uso comercial está prohibido sin permiso explícito. El conjunto de datos está destinado a la investigación académica y a proyectos no comerciales.
¿El conjunto de datos contiene emociones reales?
Las emociones son interpretadas por actores profesionales, en condiciones de estudio, lo que garantiza la claridad, pero puede limitar la naturalidad emocional en algunos casos.
¿Es un conjunto de datos multilingüe?
No. Las grabaciones están exclusivamente en inglés norteamericano.