RAVDESS

RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song) est un dataset multimodal de référence pour la reconnaissance des émotions. Il contient des enregistrements vocaux et visuels d’acteurs professionnels exprimant différentes émotions à travers la parole et le chant, en conditions contrôlées.

Télécharger le dataset

Taille

7356 fichiers audio et vidéo, formats WAV et MP4

Licence

Disponible gratuitement pour la recherche, sous licence Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)

Description

‍
Le dataset comprend :

24 acteurs (12 hommes et 12 femmes)
2 types de contenu : parole parlée et chantée
8 émotions : calme, joie, tristesse, colère, peur, surprise, dégoût, neutre
7 356 fichiers au total (audio, vidéo, audio-visuel)
Annotations précises des émotions, intensité, genre et modalité

‍

Les enregistrements sont réalisés en studio, garantissant une qualité optimale pour l’analyse des signaux audio et visuels.

‍

À quoi sert ce dataset ?

‍
RAVDESS est largement utilisé pour :

L’entraînement de modèles de reconnaissance des émotions à partir de la voix ou du visage
Le développement d’assistants vocaux, chatbots ou interfaces empathiques
L’analyse multimodale des expressions émotionnelles humaines
L’évaluation de systèmes de speech-to-emotion ou vision-to-emotion
Les projets en psychologie computationnelle et neuroscience affective

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, voici quelques axes possibles :

Combiner avec d’autres datasets émotionnels (CREMA-D, SAVEE) pour augmenter la diversité des locuteurs
Ajouter du bruit de fond ou des filtres pour tester la robustesse des modèles
Extraire des features spectrogrammes ou faciaux pour les modèles hybrides audio/vidéo
Étendre l’analyse à des émotions subtiles ou à des expressions culturelles variées

‍

🔗 Source : RAVDESS Dataset

‍

Questions fréquemment posées

Peut-on utiliser RAVDESS dans des applications commerciales ?

Non, l’utilisation commerciale est interdite sans autorisation explicite. Le dataset est destiné à la recherche académique et à des projets non commerciaux.

Le dataset contient-il de vraies émotions ?

Les émotions sont jouées par des acteurs professionnels, en conditions de studio, ce qui garantit la clarté mais peut limiter la naturalité émotionnelle dans certains cas.

Est-ce un dataset multilingue ?

Non. Les enregistrements sont exclusivement en anglais nord-américain.

Datasets similaires

Texte

Clothing Fit Dataset for Size Recommendation

Texte

LexGLUE

Image

Road Damage Detection Dataset