ESC-50 (Environmental Sound Classification)

ESC-50 (Environmental Sound Classification) est un jeu de données audio destiné à l’entraînement de modèles capables de reconnaître des sons environnementaux. Il regroupe des clips sonores répartis en cinq grandes catégories, représentant des sons naturels ou du quotidien, utiles à la reconnaissance acoustique automatique.

Télécharger le dataset

Taille

2000 clips audio de 5 secondes chacun, format WAV

Licence

Libre sous licence Creative Commons Attribution NonCommercial (CC BY-NC)

Description

‍
Le dataset ESC-50 comprend :

2 000 fichiers audio de haute qualité (44.1 kHz, mono)
Durée standardisée à 5 secondes par clip
50 classes réparties en 5 catégories principales :
- Animaux (oiseaux, chiens, insectes…)
- Sons naturels (pluie, vent, feu…)
- Bruits humains (rire, toux, éternuements…)
- Appareils domestiques (horloges, portes, aspirateurs…)
- Environnements urbains (sirènes, circulation, travaux…)

‍

Les annotations précises facilitent l’utilisation directe pour les tâches supervisées.

‍

À quoi sert ce dataset ?

‍
ESC-50 est principalement utilisé pour :

L’entraînement de modèles de classification audio supervisée
La validation de techniques d’apprentissage automatique sur des sons réels
Le développement de systèmes de reconnaissance audio embarqués
L’analyse acoustique ou psycho-acoustique de sons naturels ou urbains
La recherche en intelligence artificielle audio et l’évaluation de nouveaux algorithmes

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, plusieurs pistes sont possibles :

L’ajout de sons avec bruit de fond réaliste pour augmenter la robustesse
Le mélange ou la superposition de sons pour étudier la séparation de sources
L’extension avec des catégories ou des enregistrements supplémentaires
L’intégration à d’autres corpus (AudioSet, UrbanSound8K) pour élargir la diversité des classes

‍

🔗 Source : ESC-50 Dataset

‍