Vox Celeb
VoxCeleb es un enorme conjunto de datos de grabaciones de voz tomadas de vídeos públicos, en su mayoría entrevistas y apariciones en los medios. Contiene las voces de varios miles de oradores, en su mayoría celebridades, y está diseñado para identificar de manera sólida a las personas a partir de sus voces, a pesar del ruido, los acentos o los cambios en el entorno.
Más de 1 millón de clips de audio de voces humanas, formato WAV
Acceso gratuito para uso no comercial (licencia restringida con solicitud de acceso previa)
Descripción
El conjunto de datos proviene de la extracción de audio de los vídeos de YouTube, con una verificación semiautomática de la correspondencia entre voz y rostro. Incluye:
- Más de 1 millón de clips de voz
- Se han identificado varios miles de altavoces (VoxCeleb1 y VoxCeleb2)
- Metadatos sobre cada hablante (identidad, nacionalidad, género...)
- Grabaciones en entornos reales, ruidosos o variados
- Equilibrar las voces masculinas y femeninas, con una gran diversidad de orígenes lingüísticos
Se utiliza para entrenar sistemas que pueden reconocer o distinguir a las personas basándose únicamente en sus huellas de voz.
¿Para qué sirve este conjunto de datos?
VoxCeleb se utiliza en numerosos proyectos relacionados con:
- Identificación automática de altavoces (identificación/verificación de altavoces)
- Mejora de los sistemas de reconocimiento de voz en entornos ruidosos
- Investigación en biometría de voz y seguridad de audio
- Preentrenamiento de los modelos Wav2Vec, Whisper o ECAPA-TDNN
- La creación de huellas de voz para asistentes de voz personalizados
¿Se puede enriquecer o mejorar?
Sí, por ejemplo:
- Al agregar datos de idiomas subrepresentados
- Complementando con extractos de dominios no multimedia (podcasts, llamadas)
- Al estandarizar las señales de audio para un mejor rendimiento comparativo
- Probando escenarios de suplantación de identidad o resistiéndose a la suplantación de voz
🔗 Fuente: Conjunto de datos VoxCeleb
Preguntas frecuentes
¿Las voces son anónimas o identificables?
Están vinculados a identidades públicas (principalmente celebridades), con metadatos detallados, pero su uso está reservado para la investigación.
¿Se puede usar este conjunto de datos para proyectos comerciales?
No, VoxCeleb solo está disponible para uso académico o no comercial. Se debe enviar una solicitud de acceso al equipo de investigación.
¿El conjunto de datos es multilingüe?
Sí, cubre una amplia gama de idiomas y acentos, lo que lo convierte en una base sólida para las tareas de identificación de voz multilingües.