VoxCeleb

VoxCeleb est un dataset massif d’enregistrements vocaux extraits de vidéos publiques, principalement d'interviews et d'apparitions médiatiques. Il contient les voix de plusieurs milliers de locuteurs, principalement des célébrités, et est conçu pour l’identification robuste des personnes à partir de leur voix, malgré le bruit, les accents ou les changements d’environnement.

Télécharger le dataset

Taille

Plus de 1 million de clips audio de voix humaines, format WAV

Licence

Accès gratuit pour un usage non commercial (licence restreinte avec demande d'accès préalable)

Description

‍
Le dataset est issu de l’extraction audio de vidéos YouTube, avec une vérification semi-automatique de la correspondance voix/visage. Il comprend :

Plus d’un million de clips vocaux
Plusieurs milliers de locuteurs identifiés (VoxCeleb1 et VoxCeleb2)
Des métadonnées sur chaque locuteur (identité, nationalité, sexe…)
Des enregistrements dans des environnements réels, bruyants ou variés
Un équilibrage voix masculine/féminine, avec grande diversité d’origines linguistiques

‍

Il est utilisé pour entraîner des systèmes capables de reconnaître ou distinguer des individus uniquement à partir de leur empreinte vocale.

‍

À quoi sert ce dataset ?

‍
VoxCeleb est utilisé dans de nombreux projets liés à :

L’identification automatique de locuteurs (speaker identification/verification)
L’amélioration des systèmes de reconnaissance vocale dans des environnements bruités
La recherche en biométrie vocale et en sécurité audio
Le pré-entraînement de modèles de type Wav2Vec, Whisper ou ECAPA-TDNN
La constitution d’empreintes vocales pour les assistants vocaux personnalisés

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, par exemple :

En ajoutant des données de langues sous-représentées
En complétant avec des extraits issus de domaines non médiatiques (podcasts, appels)
En normalisant les signaux audio pour de meilleures performances comparatives
En testant des scénarios de spoofing ou de résistance à l'usurpation vocale

‍

🔗 Source : VoxCeleb Dataset

‍

Questions fréquemment posées

Les voix sont-elles anonymisées ou identifiables ?

Elles sont liées à des identités publiques (principalement des célébrités), avec des métadonnées détaillées, mais leur usage reste réservé à la recherche.

Peut-on utiliser ce dataset pour des projets commerciaux ?

Non. VoxCeleb est disponible uniquement pour un usage académique ou non commercial. Une demande d’accès doit être soumise à l’équipe de recherche.

Le dataset est-il multilingue ?

Oui, il couvre une grande diversité linguistique et d’accents, ce qui en fait une base robuste pour des tâches multilingues d’identification vocale.

Datasets similaires

Texte

IMF Data (International Monetary Fund)

Texte

Sentiment Analysis for Mental Health

Multimodal

Cambrian Alignment Dataset