LibriSpeech
LibriSpeech es un conjunto de datos de audio de referencia en el campo del reconocimiento automático de voz (ASR). Está compuesto por grabaciones de libros de dominio público leídos en voz alta por personas de habla inglesa, acompañadas de sus transcripciones de texto precisas.
Aproximadamente 1000 horas de audio en formato FLAC, con las transcripciones asociadas en TXT
Gratis para uso académico y comercial, bajo una licencia Creative Commons
Descripción
El conjunto de datos LibriSpeech incluye:
- Aproximadamente 1000 horas de audio en inglés en formato FLAC
- Transcripciones palabra por palabra en formato TXT
- Subconjuntos organizados según la calidad de la alineación y la complejidad de las grabaciones (limpias, otras)
- Una base de datos original del proyecto LibriVox, con textos de dominio público
¿Para qué sirve este conjunto de datos?
LibriSpeech se usa ampliamente para:
- Modelos de reconocimiento de voz (ASR) de entrenamiento
- Ajuste o evaluación de modelos previamente entrenados como Whisper, Wav2Vec o DeepSpeech
- Investigación sobre la comprensión del habla, la segmentación del audio o la alineación entre audio y texto
- Mejora de las tecnologías de síntesis e interacción de voz
¿Se puede enriquecer o mejorar?
Sí, aunque ya está muy estructurado, LibriSpeech se puede adaptar a:
- Añadir anotaciones prosódicas o fonéticas
- Combínelo con corpus multilingües para el reconocimiento de cambios de código
- Cree variantes ruidosas o acentuadas para probar la robustez de los modelos
- Integre audio-texto en los canales de alineación multimodal
🔗 Fuente: Conjunto de datos LibriSpeech
Preguntas frecuentes
¿Cuál es la diferencia entre los subconjuntos «limpios» y «otros»?
Las grabaciones «limpias» tienen una mejor calidad de audio y una dicción más clara, mientras que los «otros» archivos son más complejos (acentos nítidos, ruido de fondo, reproducción más rápida, etc.).
¿Se puede usar LibriSpeech en otros idiomas además del inglés?
No, LibriSpeech está exclusivamente en inglés. Para otros idiomas, hay equivalentes como Common Voice, Multilingual LibriSpeech o VoxPopuli.
¿LibriSpeech está adaptado a la síntesis de voz?
Sí, aunque no sea su uso principal. Las grabaciones bien segmentadas y las transcripciones alineadas hacen que sea útil para entrenar o evaluar los sistemas de conversión de texto a voz (TTS).