Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
LibriSpeech
Multimodal

LibriSpeech

LibriSpeech es un conjunto de datos de audio de referencia en el campo del reconocimiento automático de voz (ASR). Está compuesto por grabaciones de libros de dominio público leídos en voz alta por personas de habla inglesa, acompañadas de sus transcripciones de texto precisas.

Obtén el dataset
Tamaño

Aproximadamente 1000 horas de audio en formato FLAC, con las transcripciones asociadas en TXT

Licencia

Gratis para uso académico y comercial, bajo una licencia Creative Commons

Descripción


El conjunto de datos LibriSpeech incluye:

  • Aproximadamente 1000 horas de audio en inglés en formato FLAC
  • Transcripciones palabra por palabra en formato TXT
  • Subconjuntos organizados según la calidad de la alineación y la complejidad de las grabaciones (limpias, otras)
  • Una base de datos original del proyecto LibriVox, con textos de dominio público

¿Para qué sirve este conjunto de datos?


LibriSpeech se usa ampliamente para:

  • Modelos de reconocimiento de voz (ASR) de entrenamiento
  • Ajuste o evaluación de modelos previamente entrenados como Whisper, Wav2Vec o DeepSpeech
  • Investigación sobre la comprensión del habla, la segmentación del audio o la alineación entre audio y texto
  • Mejora de las tecnologías de síntesis e interacción de voz

¿Se puede enriquecer o mejorar?


Sí, aunque ya está muy estructurado, LibriSpeech se puede adaptar a:

  • Añadir anotaciones prosódicas o fonéticas
  • Combínelo con corpus multilingües para el reconocimiento de cambios de código
  • Cree variantes ruidosas o acentuadas para probar la robustez de los modelos
  • Integre audio-texto en los canales de alineación multimodal

🔗 Fuente: Conjunto de datos LibriSpeech

Preguntas frecuentes

¿Cuál es la diferencia entre los subconjuntos «limpios» y «otros»?

Las grabaciones «limpias» tienen una mejor calidad de audio y una dicción más clara, mientras que los «otros» archivos son más complejos (acentos nítidos, ruido de fondo, reproducción más rápida, etc.).

¿Se puede usar LibriSpeech en otros idiomas además del inglés?

No, LibriSpeech está exclusivamente en inglés. Para otros idiomas, hay equivalentes como Common Voice, Multilingual LibriSpeech o VoxPopuli.

¿LibriSpeech está adaptado a la síntesis de voz?

Sí, aunque no sea su uso principal. Las grabaciones bien segmentadas y las transcripciones alineadas hacen que sea útil para entrenar o evaluar los sistemas de conversión de texto a voz (TTS).

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.