GigaSpeech

GigaSpeech es un extenso corpus de inglés multidominio con hasta 10 000 horas de audio de alta calidad a partir de audiolibros, podcasts y vídeos de YouTube. Incluye diferentes estilos de discurso, desde el discurso leído hasta el discurso espontáneo, sobre una variedad de temas. El conjunto de datos está diseñado para el reconocimiento automático de voz (ASR) y la síntesis de voz (TTS).

Obtén el dataset

Tamaño

Hasta 10 000 horas de audio transcrito, archivos WAV/Opus y varios segmentos de audio

Licencia

Apache 2.0

Descripción

‍

El conjunto de datos GigaSpeech contiene una amplia gama de audios transcritos en inglés, recopilados de una variedad de fuentes, como audiolibros, podcasts y vídeos de YouTube. Ofrece varias configuraciones que van desde 10 horas (XS) hasta 10 000 horas (XL) para adaptarse a las necesidades industriales y de investigación. Los segmentos de audio van acompañados de transcripciones de texto precisas, lo que permite entrenar modelos robustos de reconocimiento y síntesis de voz.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene modelos de reconocimiento automático de voz (ASR) en inglés con grandes cantidades de datos.
Forme sistemas de síntesis de voz (TTS) a partir de audio variado y de calidad.
Pruebe y evalúe modelos en diversas áreas temáticas y estilos de discurso.

‍

¿Se puede enriquecer o mejorar?

‍

Sí, el conjunto de datos se puede complementar con anotaciones adicionales, segmentaciones más precisas o integraciones de nuevas fuentes de audio. También es posible adaptar las transcripciones para casos de uso específicos o agregar metadatos para enriquecer las experiencias de los usuarios.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐☆☆ (Requiere manejo de grandes volúmenes y formatos variados)
🧼Necesidad de limpieza	⭐⭐⭐☆☆ (Moderado: se recomienda control de calidad según las fuentes de audio)
🏷️Riqueza de anotaciones	⭐⭐⭐☆☆ (Transcripciones textuales precisas, pocas anotaciones adicionales)
📜Licencia comercial	✅ Libre y comercial (Apache 2.0)
👨‍💻Ideal para principiantes	⚠️ Recomendado para usuarios con experiencia en audio
🔁Reutilizable para fine-tuning	🔥 Excelente para fine-tuning ASR y TTS
🌍Diversidad cultural	🌐 Solo inglés, multi-dominio