AudioSet

AudioSet est un vaste corpus audio compilé par Google, contenant des millions d'extraits sonores issus de vidéos YouTube. Chaque clip, d’une durée de 10 secondes, est annoté avec une ou plusieurs étiquettes issues d’un vocabulaire structuré regroupant plus de 600 catégories de sons.

Télécharger le dataset

Taille

Plus de 2 millions de clips audio annotés, formats WAV (via extraction) et JSON (annotations)

Licence

Accès libre à des fins de recherche, avec annotations fournies par Google sous licence Creative Commons (l'audio original reste hébergé sur YouTube)

Description

‍
AudioSet couvre une grande diversité de sons issus du monde réel :

Sons humains : parole, rire, toux, cris, applaudissements, …
Sons d’animaux : aboiements, chants d’oiseaux, hennissements, …
Sons mécaniques : moteurs, alarmes, sirènes, outils, véhicules, …
Environnements : pluie, vent, foule, forêt, salle de classe, …
Musique : instruments, chants, genres musicaux variés

‍

Les annotations sont hiérarchisées et issues d’un processus semi-automatisé validé manuellement sur un sous-ensemble.

‍

À quoi sert ce dataset ?

‍
AudioSet est utilisé pour :

L’entraînement de modèles de classification et détection de sons environnementaux
Le développement de systèmes de reconnaissance sonore en temps réel
L’annotation de scènes audio complexes pour la robotique ou les appareils embarqués
L’étude des contextes acoustiques dans les projets d’IA audio ou multimodale
L’analyse des événements sonores pour la création de banques audio ou la synthèse générative

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, par exemple :

En combinant AudioSet avec des extraits localement stockés ou captés en temps réel
En affinant les catégories pour des contextes industriels ou médicaux spécifiques
En appliquant des techniques de segmentation ou séparation de sources
En utilisant les embeddings audio comme entrée dans des modèles multimodaux

‍

🔗 Source : AudioSet Dataset

‍

Questions fréquemment posées

Les fichiers audio sont-ils directement téléchargeables ?

Non. Seules les annotations et les liens vers les vidéos sont fournis. Il faut extraire les extraits audio via les liens YouTube, conformément aux conditions d'utilisation.

Peut-on utiliser AudioSet dans un cadre commercial ?

Les annotations sont libres, mais l’audio original étant soumis aux droits d’auteur de YouTube, une vérification de licence est nécessaire pour les usages commerciaux.

Le dataset est-il multilingue ?

Indirectement, oui. Les sons vocaux proviennent de vidéos multilingues, mais les annotations sont en anglais.

Datasets similaires

Video

Deep Fake Detection DFD Entire Original Dataset

Texte

SMS Spam Collection

Texte

MixInstruct – Comparaison multi-LLM sur réponses d'instructions