VoxCeleb
VoxCeleb est un dataset massif d’enregistrements vocaux extraits de vidéos publiques, principalement d'interviews et d'apparitions médiatiques. Il contient les voix de plusieurs milliers de locuteurs, principalement des célébrités, et est conçu pour l’identification robuste des personnes à partir de leur voix, malgré le bruit, les accents ou les changements d’environnement.
Plus de 1 million de clips audio de voix humaines, format WAV
Accès gratuit pour un usage non commercial (licence restreinte avec demande d'accès préalable)
Description
Le dataset est issu de l’extraction audio de vidéos YouTube, avec une vérification semi-automatique de la correspondance voix/visage. Il comprend :
- Plus d’un million de clips vocaux
- Plusieurs milliers de locuteurs identifiés (VoxCeleb1 et VoxCeleb2)
- Des métadonnées sur chaque locuteur (identité, nationalité, sexe…)
- Des enregistrements dans des environnements réels, bruyants ou variés
- Un équilibrage voix masculine/féminine, avec grande diversité d’origines linguistiques
Il est utilisé pour entraîner des systèmes capables de reconnaître ou distinguer des individus uniquement à partir de leur empreinte vocale.
À quoi sert ce dataset ?
VoxCeleb est utilisé dans de nombreux projets liés à :
- L’identification automatique de locuteurs (speaker identification/verification)
- L’amélioration des systèmes de reconnaissance vocale dans des environnements bruités
- La recherche en biométrie vocale et en sécurité audio
- Le pré-entraînement de modèles de type Wav2Vec, Whisper ou ECAPA-TDNN
- La constitution d’empreintes vocales pour les assistants vocaux personnalisés
Peut-on l’enrichir ou l’améliorer ?
Oui, par exemple :
- En ajoutant des données de langues sous-représentées
- En complétant avec des extraits issus de domaines non médiatiques (podcasts, appels)
- En normalisant les signaux audio pour de meilleures performances comparatives
- En testant des scénarios de spoofing ou de résistance à l'usurpation vocale
🔗 Source : VoxCeleb Dataset
Questions fréquemment posées
Les voix sont-elles anonymisées ou identifiables ?
Elles sont liées à des identités publiques (principalement des célébrités), avec des métadonnées détaillées, mais leur usage reste réservé à la recherche.
Peut-on utiliser ce dataset pour des projets commerciaux ?
Non. VoxCeleb est disponible uniquement pour un usage académique ou non commercial. Une demande d’accès doit être soumise à l’équipe de recherche.
Le dataset est-il multilingue ?
Oui, il couvre une grande diversité linguistique et d’accents, ce qui en fait une base robuste pour des tâches multilingues d’identification vocale.