Vox Celeb

VoxCeleb es un enorme conjunto de datos de grabaciones de voz tomadas de vídeos públicos, en su mayoría entrevistas y apariciones en los medios. Contiene las voces de varios miles de oradores, en su mayoría celebridades, y está diseñado para identificar de manera sólida a las personas a partir de sus voces, a pesar del ruido, los acentos o los cambios en el entorno.

Obtén el dataset

Tamaño

Más de 1 millón de clips de audio de voces humanas, formato WAV

Licencia

Acceso gratuito para uso no comercial (licencia restringida con solicitud de acceso previa)

Descripción

‍
El conjunto de datos proviene de la extracción de audio de los vídeos de YouTube, con una verificación semiautomática de la correspondencia entre voz y rostro. Incluye:

Más de 1 millón de clips de voz
Se han identificado varios miles de altavoces (VoxCeleb1 y VoxCeleb2)
Metadatos sobre cada hablante (identidad, nacionalidad, género...)
Grabaciones en entornos reales, ruidosos o variados
Equilibrar las voces masculinas y femeninas, con una gran diversidad de orígenes lingüísticos

‍

Se utiliza para entrenar sistemas que pueden reconocer o distinguir a las personas basándose únicamente en sus huellas de voz.

‍

¿Para qué sirve este conjunto de datos?

‍
VoxCeleb se utiliza en numerosos proyectos relacionados con:

Identificación automática de altavoces (identificación/verificación de altavoces)
Mejora de los sistemas de reconocimiento de voz en entornos ruidosos
Investigación en biometría de voz y seguridad de audio
Preentrenamiento de los modelos Wav2Vec, Whisper o ECAPA-TDNN
La creación de huellas de voz para asistentes de voz personalizados

‍

¿Se puede enriquecer o mejorar?

‍
Sí, por ejemplo:

Al agregar datos de idiomas subrepresentados
Complementando con extractos de dominios no multimedia (podcasts, llamadas)
Al estandarizar las señales de audio para un mejor rendimiento comparativo
Probando escenarios de suplantación de identidad o resistiéndose a la suplantación de voz

‍

🔗 Fuente: Conjunto de datos VoxCeleb

‍