AudioSet
AudioSet est un vaste corpus audio compilé par Google, contenant des millions d'extraits sonores issus de vidéos YouTube. Chaque clip, d’une durée de 10 secondes, est annoté avec une ou plusieurs étiquettes issues d’un vocabulaire structuré regroupant plus de 600 catégories de sons.
Plus de 2 millions de clips audio annotés, formats WAV (via extraction) et JSON (annotations)
Accès libre à des fins de recherche, avec annotations fournies par Google sous licence Creative Commons (l'audio original reste hébergé sur YouTube)
Description
AudioSet couvre une grande diversité de sons issus du monde réel :
- Sons humains : parole, rire, toux, cris, applaudissements, …
- Sons d’animaux : aboiements, chants d’oiseaux, hennissements, …
- Sons mécaniques : moteurs, alarmes, sirènes, outils, véhicules, …
- Environnements : pluie, vent, foule, forêt, salle de classe, …
- Musique : instruments, chants, genres musicaux variés
Les annotations sont hiérarchisées et issues d’un processus semi-automatisé validé manuellement sur un sous-ensemble.
À quoi sert ce dataset ?
AudioSet est utilisé pour :
- L’entraînement de modèles de classification et détection de sons environnementaux
- Le développement de systèmes de reconnaissance sonore en temps réel
- L’annotation de scènes audio complexes pour la robotique ou les appareils embarqués
- L’étude des contextes acoustiques dans les projets d’IA audio ou multimodale
- L’analyse des événements sonores pour la création de banques audio ou la synthèse générative
Peut-on l’enrichir ou l’améliorer ?
Oui, par exemple :
- En combinant AudioSet avec des extraits localement stockés ou captés en temps réel
- En affinant les catégories pour des contextes industriels ou médicaux spécifiques
- En appliquant des techniques de segmentation ou séparation de sources
- En utilisant les embeddings audio comme entrée dans des modèles multimodaux
🔗 Source : AudioSet Dataset
Questions fréquemment posées
Les fichiers audio sont-ils directement téléchargeables ?
Non. Seules les annotations et les liens vers les vidéos sont fournis. Il faut extraire les extraits audio via les liens YouTube, conformément aux conditions d'utilisation.
Peut-on utiliser AudioSet dans un cadre commercial ?
Les annotations sont libres, mais l’audio original étant soumis aux droits d’auteur de YouTube, une vérification de licence est nécessaire pour les usages commerciaux.
Le dataset est-il multilingue ?
Indirectement, oui. Les sons vocaux proviennent de vidéos multilingues, mais les annotations sont en anglais.