En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
VoxCeleb
Multimodal

VoxCeleb

VoxCeleb est un dataset massif d’enregistrements vocaux extraits de vidéos publiques, principalement d'interviews et d'apparitions médiatiques. Il contient les voix de plusieurs milliers de locuteurs, principalement des célébrités, et est conçu pour l’identification robuste des personnes à partir de leur voix, malgré le bruit, les accents ou les changements d’environnement.

Télécharger le dataset
Taille

Plus de 1 million de clips audio de voix humaines, format WAV

Licence

Accès gratuit pour un usage non commercial (licence restreinte avec demande d'accès préalable)

Description


Le dataset est issu de l’extraction audio de vidéos YouTube, avec une vérification semi-automatique de la correspondance voix/visage. Il comprend :

  • Plus d’un million de clips vocaux
  • Plusieurs milliers de locuteurs identifiés (VoxCeleb1 et VoxCeleb2)
  • Des métadonnées sur chaque locuteur (identité, nationalité, sexe…)
  • Des enregistrements dans des environnements réels, bruyants ou variés
  • Un équilibrage voix masculine/féminine, avec grande diversité d’origines linguistiques

Il est utilisé pour entraîner des systèmes capables de reconnaître ou distinguer des individus uniquement à partir de leur empreinte vocale.

À quoi sert ce dataset ?


VoxCeleb est utilisé dans de nombreux projets liés à :

  • L’identification automatique de locuteurs (speaker identification/verification)
  • L’amélioration des systèmes de reconnaissance vocale dans des environnements bruités
  • La recherche en biométrie vocale et en sécurité audio
  • Le pré-entraînement de modèles de type Wav2Vec, Whisper ou ECAPA-TDNN
  • La constitution d’empreintes vocales pour les assistants vocaux personnalisés

Peut-on l’enrichir ou l’améliorer ?


Oui, par exemple :

  • En ajoutant des données de langues sous-représentées
  • En complétant avec des extraits issus de domaines non médiatiques (podcasts, appels)
  • En normalisant les signaux audio pour de meilleures performances comparatives
  • En testant des scénarios de spoofing ou de résistance à l'usurpation vocale

🔗 Source : VoxCeleb Dataset

Questions fréquemment posées

Les voix sont-elles anonymisées ou identifiables ?

Elles sont liées à des identités publiques (principalement des célébrités), avec des métadonnées détaillées, mais leur usage reste réservé à la recherche.

Peut-on utiliser ce dataset pour des projets commerciaux ?

Non. VoxCeleb est disponible uniquement pour un usage académique ou non commercial. Une demande d’accès doit être soumise à l’équipe de recherche.

Le dataset est-il multilingue ?

Oui, il couvre une grande diversité linguistique et d’accents, ce qui en fait une base robuste pour des tâches multilingues d’identification vocale.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.