GigaSpeech
GigaSpeech es un extenso corpus de inglés multidominio con hasta 10 000 horas de audio de alta calidad a partir de audiolibros, podcasts y vídeos de YouTube. Incluye diferentes estilos de discurso, desde el discurso leído hasta el discurso espontáneo, sobre una variedad de temas. El conjunto de datos está diseñado para el reconocimiento automático de voz (ASR) y la síntesis de voz (TTS).
Hasta 10 000 horas de audio transcrito, archivos WAV/Opus y varios segmentos de audio
Apache 2.0
Descripción
El conjunto de datos GigaSpeech contiene una amplia gama de audios transcritos en inglés, recopilados de una variedad de fuentes, como audiolibros, podcasts y vídeos de YouTube. Ofrece varias configuraciones que van desde 10 horas (XS) hasta 10 000 horas (XL) para adaptarse a las necesidades industriales y de investigación. Los segmentos de audio van acompañados de transcripciones de texto precisas, lo que permite entrenar modelos robustos de reconocimiento y síntesis de voz.
¿Para qué sirve este conjunto de datos?
- Entrene modelos de reconocimiento automático de voz (ASR) en inglés con grandes cantidades de datos.
- Forme sistemas de síntesis de voz (TTS) a partir de audio variado y de calidad.
- Pruebe y evalúe modelos en diversas áreas temáticas y estilos de discurso.
¿Se puede enriquecer o mejorar?
Sí, el conjunto de datos se puede complementar con anotaciones adicionales, segmentaciones más precisas o integraciones de nuevas fuentes de audio. También es posible adaptar las transcripciones para casos de uso específicos o agregar metadatos para enriquecer las experiencias de los usuarios.
🔎 En resumen
🧠 Recomendado para
- Equipos de ASR
- Proyectos TTS
🔧 Herramientas compatibles
- ESPnet
- Transformers Hugging Face
- Wav2vec 2.0
💡 Consejo
Utilice las distintas configuraciones para ajustar el volumen en función de sus recursos y necesidades.
Preguntas frecuentes
¿Cuáles son las principales fuentes de audio de GigaSpeech?
Audiolibros, podcasts y vídeos de YouTube que cubren una variedad de temas y estilos de conversación.
¿Se puede usar GigaSpeech para conversión de texto a voz (TTS)?
Sí, el conjunto de datos es adecuado para entrenar modelos de conversión de texto a voz además del reconocimiento de voz.
¿El conjunto de datos contiene varios tamaños de subconjuntos?
Sí, ofrece cinco configuraciones de diferentes tamaños, desde 10 horas (XS) hasta 10 000 horas (XL), para adaptarse a diversos usos.