En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
AudioSet
Audio

AudioSet

AudioSet est un vaste corpus audio compilé par Google, contenant des millions d'extraits sonores issus de vidéos YouTube. Chaque clip, d’une durée de 10 secondes, est annoté avec une ou plusieurs étiquettes issues d’un vocabulaire structuré regroupant plus de 600 catégories de sons.

Télécharger le dataset
Taille

Plus de 2 millions de clips audio annotés, formats WAV (via extraction) et JSON (annotations)

Licence

Accès libre à des fins de recherche, avec annotations fournies par Google sous licence Creative Commons (l'audio original reste hébergé sur YouTube)

Description


AudioSet couvre une grande diversité de sons issus du monde réel :

  • Sons humains : parole, rire, toux, cris, applaudissements, …
  • Sons d’animaux : aboiements, chants d’oiseaux, hennissements, …
  • Sons mécaniques : moteurs, alarmes, sirènes, outils, véhicules, …
  • Environnements : pluie, vent, foule, forêt, salle de classe, …
  • Musique : instruments, chants, genres musicaux variés

Les annotations sont hiérarchisées et issues d’un processus semi-automatisé validé manuellement sur un sous-ensemble.

À quoi sert ce dataset ?


AudioSet est utilisé pour :

  • L’entraînement de modèles de classification et détection de sons environnementaux
  • Le développement de systèmes de reconnaissance sonore en temps réel
  • L’annotation de scènes audio complexes pour la robotique ou les appareils embarqués
  • L’étude des contextes acoustiques dans les projets d’IA audio ou multimodale
  • L’analyse des événements sonores pour la création de banques audio ou la synthèse générative

Peut-on l’enrichir ou l’améliorer ?


Oui, par exemple :

  • En combinant AudioSet avec des extraits localement stockés ou captés en temps réel
  • En affinant les catégories pour des contextes industriels ou médicaux spécifiques
  • En appliquant des techniques de segmentation ou séparation de sources
  • En utilisant les embeddings audio comme entrée dans des modèles multimodaux

🔗 Source : AudioSet Dataset

Questions fréquemment posées

Les fichiers audio sont-ils directement téléchargeables ?

Non. Seules les annotations et les liens vers les vidéos sont fournis. Il faut extraire les extraits audio via les liens YouTube, conformément aux conditions d'utilisation.

Peut-on utiliser AudioSet dans un cadre commercial ?

Les annotations sont libres, mais l’audio original étant soumis aux droits d’auteur de YouTube, une vérification de licence est nécessaire pour les usages commerciaux.

Le dataset est-il multilingue ?

Indirectement, oui. Les sons vocaux proviennent de vidéos multilingues, mais les annotations sont en anglais.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.