En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Vox Celeb
Multimodal

Vox Celeb

VoxCeleb es un enorme conjunto de datos de grabaciones de voz tomadas de vídeos públicos, en su mayoría entrevistas y apariciones en los medios. Contiene las voces de varios miles de oradores, en su mayoría celebridades, y está diseñado para identificar de manera sólida a las personas a partir de sus voces, a pesar del ruido, los acentos o los cambios en el entorno.

Obtén el dataset
Tamaño

Más de 1 millón de clips de audio de voces humanas, formato WAV

Licencia

Acceso gratuito para uso no comercial (licencia restringida con solicitud de acceso previa)

Descripción


El conjunto de datos proviene de la extracción de audio de los vídeos de YouTube, con una verificación semiautomática de la correspondencia entre voz y rostro. Incluye:

  • Más de 1 millón de clips de voz
  • Se han identificado varios miles de altavoces (VoxCeleb1 y VoxCeleb2)
  • Metadatos sobre cada hablante (identidad, nacionalidad, género...)
  • Grabaciones en entornos reales, ruidosos o variados
  • Equilibrar las voces masculinas y femeninas, con una gran diversidad de orígenes lingüísticos

Se utiliza para entrenar sistemas que pueden reconocer o distinguir a las personas basándose únicamente en sus huellas de voz.

¿Para qué sirve este conjunto de datos?


VoxCeleb se utiliza en numerosos proyectos relacionados con:

  • Identificación automática de altavoces (identificación/verificación de altavoces)
  • Mejora de los sistemas de reconocimiento de voz en entornos ruidosos
  • Investigación en biometría de voz y seguridad de audio
  • Preentrenamiento de los modelos Wav2Vec, Whisper o ECAPA-TDNN
  • La creación de huellas de voz para asistentes de voz personalizados

¿Se puede enriquecer o mejorar?


Sí, por ejemplo:

  • Al agregar datos de idiomas subrepresentados
  • Complementando con extractos de dominios no multimedia (podcasts, llamadas)
  • Al estandarizar las señales de audio para un mejor rendimiento comparativo
  • Probando escenarios de suplantación de identidad o resistiéndose a la suplantación de voz

🔗 Fuente: Conjunto de datos VoxCeleb

Preguntas frecuentes

¿Las voces son anónimas o identificables?

Están vinculados a identidades públicas (principalmente celebridades), con metadatos detallados, pero su uso está reservado para la investigación.

¿Se puede usar este conjunto de datos para proyectos comerciales?

No, VoxCeleb solo está disponible para uso académico o no comercial. Se debe enviar una solicitud de acceso al equipo de investigación.

¿El conjunto de datos es multilingüe?

Sí, cubre una amplia gama de idiomas y acentos, lo que lo convierte en una base sólida para las tareas de identificación de voz multilingües.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.