LibriSpeech

LibriSpeech es un conjunto de datos de audio de referencia en el campo del reconocimiento automático de voz (ASR). Está compuesto por grabaciones de libros de dominio público leídos en voz alta por personas de habla inglesa, acompañadas de sus transcripciones de texto precisas.

Obtén el dataset

Tamaño

Aproximadamente 1000 horas de audio en formato FLAC, con las transcripciones asociadas en TXT

Licencia

Gratis para uso académico y comercial, bajo una licencia Creative Commons

Descripción

‍
El conjunto de datos LibriSpeech incluye:

Aproximadamente 1000 horas de audio en inglés en formato FLAC
Transcripciones palabra por palabra en formato TXT
Subconjuntos organizados según la calidad de la alineación y la complejidad de las grabaciones (limpias, otras)
Una base de datos original del proyecto LibriVox, con textos de dominio público

‍

¿Para qué sirve este conjunto de datos?

‍
LibriSpeech se usa ampliamente para:

Modelos de reconocimiento de voz (ASR) de entrenamiento
Ajuste o evaluación de modelos previamente entrenados como Whisper, Wav2Vec o DeepSpeech
Investigación sobre la comprensión del habla, la segmentación del audio o la alineación entre audio y texto
Mejora de las tecnologías de síntesis e interacción de voz

‍

¿Se puede enriquecer o mejorar?

‍
Sí, aunque ya está muy estructurado, LibriSpeech se puede adaptar a:

Añadir anotaciones prosódicas o fonéticas
Combínelo con corpus multilingües para el reconocimiento de cambios de código
Cree variantes ruidosas o acentuadas para probar la robustez de los modelos
Integre audio-texto en los canales de alineación multimodal

‍

🔗 Fuente: Conjunto de datos LibriSpeech

‍

Preguntas frecuentes

¿Cuál es la diferencia entre los subconjuntos «limpios» y «otros»?

Las grabaciones «limpias» tienen una mejor calidad de audio y una dicción más clara, mientras que los «otros» archivos son más complejos (acentos nítidos, ruido de fondo, reproducción más rápida, etc.).

¿Se puede usar LibriSpeech en otros idiomas además del inglés?

No, LibriSpeech está exclusivamente en inglés. Para otros idiomas, hay equivalentes como Common Voice, Multilingual LibriSpeech o VoxPopuli.

¿LibriSpeech está adaptado a la síntesis de voz?

Sí, aunque no sea su uso principal. Las grabaciones bien segmentadas y las transcripciones alineadas hacen que sea útil para entrenar o evaluar los sistemas de conversión de texto a voz (TTS).

Otros datasets

Texto

Conjunto de datos WikiText-103

Multimodal

Howto100M

Texto

Cybersecurity Heimdall v1.1