RAVDESS
RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song) est un dataset multimodal de référence pour la reconnaissance des émotions. Il contient des enregistrements vocaux et visuels d’acteurs professionnels exprimant différentes émotions à travers la parole et le chant, en conditions contrôlées.
7356 fichiers audio et vidéo, formats WAV et MP4
Disponible gratuitement pour la recherche, sous licence Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)
Description
Le dataset comprend :
- 24 acteurs (12 hommes et 12 femmes)
- 2 types de contenu : parole parlée et chantée
- 8 émotions : calme, joie, tristesse, colère, peur, surprise, dégoût, neutre
- 7 356 fichiers au total (audio, vidéo, audio-visuel)
- Annotations précises des émotions, intensité, genre et modalité
Les enregistrements sont réalisés en studio, garantissant une qualité optimale pour l’analyse des signaux audio et visuels.
À quoi sert ce dataset ?
RAVDESS est largement utilisé pour :
- L’entraînement de modèles de reconnaissance des émotions à partir de la voix ou du visage
- Le développement d’assistants vocaux, chatbots ou interfaces empathiques
- L’analyse multimodale des expressions émotionnelles humaines
- L’évaluation de systèmes de speech-to-emotion ou vision-to-emotion
- Les projets en psychologie computationnelle et neuroscience affective
Peut-on l’enrichir ou l’améliorer ?
Oui, voici quelques axes possibles :
- Combiner avec d’autres datasets émotionnels (CREMA-D, SAVEE) pour augmenter la diversité des locuteurs
- Ajouter du bruit de fond ou des filtres pour tester la robustesse des modèles
- Extraire des features spectrogrammes ou faciaux pour les modèles hybrides audio/vidéo
- Étendre l’analyse à des émotions subtiles ou à des expressions culturelles variées
🔗 Source : RAVDESS Dataset
Questions fréquemment posées
Peut-on utiliser RAVDESS dans des applications commerciales ?
Non, l’utilisation commerciale est interdite sans autorisation explicite. Le dataset est destiné à la recherche académique et à des projets non commerciaux.
Le dataset contient-il de vraies émotions ?
Les émotions sont jouées par des acteurs professionnels, en conditions de studio, ce qui garantit la clarté mais peut limiter la naturalité émotionnelle dans certains cas.
Est-ce un dataset multilingue ?
Non. Les enregistrements sont exclusivement en anglais nord-américain.