RAVDESS

RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song) es un conjunto de datos de referencia multimodal para el reconocimiento de emociones. Contiene grabaciones vocales y visuales de actores profesionales que expresan diferentes emociones a través del habla y el canto, en condiciones controladas.

Obtén el dataset

Tamaño

7356 archivos de audio y vídeo, formatos WAV y MP4

Licencia

Disponible de forma gratuita para investigación, bajo una licencia Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)

Descripción

‍
El conjunto de datos incluye:

24 actores (12 hombres y 12 mujeres)
2 tipos de contenido: discurso hablado y cantado
8 emociones: calma, alegría, tristeza, enfado, miedo, sorpresa, asco, neutralidad
7.356 archivos en total (audio, vídeo, audiovisuales)
Anotaciones precisas de emociones, intensidad, género y modalidad

‍

Las grabaciones se realizan en el estudio, lo que garantiza una calidad óptima para el análisis de las señales de audio y visuales.

‍

¿Para qué sirve este conjunto de datos?

‍
RAVDESS se usa ampliamente para:

Modelos de entrenamiento para reconocer las emociones de la voz o el rostro
El desarrollo de asistentes de voz, chatbots o interfaces empáticas
Análisis multimodal de las expresiones emocionales humanas
La evaluación de los sistemas del habla a la emoción o de la visión a la emoción
Proyectos de psicología computacional y neurociencia afectiva

‍

¿Se puede enriquecer o mejorar?

‍
Sí, estos son algunos de los ejes posibles:

Combínelo con otros conjuntos de datos emocionales (CREMA-D, SAVEE) para aumentar la diversidad de hablantes
Agregue ruido de fondo o filtros para probar la solidez de los modelos
Extracción de espectrogramas o rasgos faciales para modelos híbridos de audio/vídeo
Amplíe el análisis a emociones sutiles o expresiones culturales variadas

‍

🔗 Fuente: Conjunto de datos RAVDESS

‍

Preguntas frecuentes

¿Se puede usar RAVDESS en aplicaciones comerciales?

No, el uso comercial está prohibido sin permiso explícito. El conjunto de datos está destinado a la investigación académica y a proyectos no comerciales.

¿El conjunto de datos contiene emociones reales?

Las emociones son interpretadas por actores profesionales, en condiciones de estudio, lo que garantiza la claridad, pero puede limitar la naturalidad emocional en algunos casos.

¿Es un conjunto de datos multilingüe?

No. Las grabaciones están exclusivamente en inglés norteamericano.

Otros datasets

Texto

GLUE Benchmark

Texto

Agentic Long Context Understanding QA

Audio

Comandos de voz de Google