Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
GigaSpeech
Audio

GigaSpeech

GigaSpeech es un extenso corpus de inglés multidominio con hasta 10 000 horas de audio de alta calidad a partir de audiolibros, podcasts y vídeos de YouTube. Incluye diferentes estilos de discurso, desde el discurso leído hasta el discurso espontáneo, sobre una variedad de temas. El conjunto de datos está diseñado para el reconocimiento automático de voz (ASR) y la síntesis de voz (TTS).

Obtén el dataset
Tamaño

Hasta 10 000 horas de audio transcrito, archivos WAV/Opus y varios segmentos de audio

Licencia

Apache 2.0

Descripción

El conjunto de datos GigaSpeech contiene una amplia gama de audios transcritos en inglés, recopilados de una variedad de fuentes, como audiolibros, podcasts y vídeos de YouTube. Ofrece varias configuraciones que van desde 10 horas (XS) hasta 10 000 horas (XL) para adaptarse a las necesidades industriales y de investigación. Los segmentos de audio van acompañados de transcripciones de texto precisas, lo que permite entrenar modelos robustos de reconocimiento y síntesis de voz.

¿Para qué sirve este conjunto de datos?

  • Entrene modelos de reconocimiento automático de voz (ASR) en inglés con grandes cantidades de datos.
  • Forme sistemas de síntesis de voz (TTS) a partir de audio variado y de calidad.
  • Pruebe y evalúe modelos en diversas áreas temáticas y estilos de discurso.

¿Se puede enriquecer o mejorar?

Sí, el conjunto de datos se puede complementar con anotaciones adicionales, segmentaciones más precisas o integraciones de nuevas fuentes de audio. También es posible adaptar las transcripciones para casos de uso específicos o agregar metadatos para enriquecer las experiencias de los usuarios.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐☆☆ (Requiere manejo de grandes volúmenes y formatos variados)
🧼Necesidad de limpieza ⭐⭐⭐☆☆ (Moderado: se recomienda control de calidad según las fuentes de audio)
🏷️Riqueza de anotaciones ⭐⭐⭐☆☆ (Transcripciones textuales precisas, pocas anotaciones adicionales)
📜Licencia comercial ✅ Libre y comercial (Apache 2.0)
👨‍💻Ideal para principiantes ⚠️ Recomendado para usuarios con experiencia en audio
🔁Reutilizable para fine-tuning 🔥 Excelente para fine-tuning ASR y TTS
🌍Diversidad cultural 🌐 Solo inglés, multi-dominio

🧠 Recomendado para

  • Equipos de ASR
  • Proyectos TTS

🔧 Herramientas compatibles

  • ESPnet
  • Transformers Hugging Face
  • Wav2vec 2.0

💡 Consejo

Utilice las distintas configuraciones para ajustar el volumen en función de sus recursos y necesidades.

Preguntas frecuentes

¿Cuáles son las principales fuentes de audio de GigaSpeech?

Audiolibros, podcasts y vídeos de YouTube que cubren una variedad de temas y estilos de conversación.

¿Se puede usar GigaSpeech para conversión de texto a voz (TTS)?

Sí, el conjunto de datos es adecuado para entrenar modelos de conversión de texto a voz además del reconocimiento de voz.

¿El conjunto de datos contiene varios tamaños de subconjuntos?

Sí, ofrece cinco configuraciones de diferentes tamaños, desde 10 horas (XS) hasta 10 000 horas (XL), para adaptarse a diversos usos.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.