GigaSpeech
GigaSpeech est un vaste corpus anglais multi-domaines regroupant jusqu’à 10 000 heures d’audio de haute qualité issues d’audiobooks, podcasts et vidéos YouTube. Il inclut différents styles de parole, du discours lu à la parole spontanée, sur divers sujets. Le dataset est conçu pour la reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS).
Jusqu’à 10 000 heures d’audio transcrit, fichiers WAV/Opus, segments audio variés
Apache 2.0
Description
Le dataset GigaSpeech contient un vaste ensemble d’audio transcrit en anglais, collecté depuis diverses sources comme les audiobooks, podcasts, et vidéos YouTube. Il propose plusieurs configurations allant de 10 heures (XS) à 10 000 heures (XL) pour s’adapter aux besoins de recherche et industriels. Les segments audio sont accompagnés de transcriptions textuelles précises, permettant d’entraîner des modèles robustes de reconnaissance et synthèse vocale.
À quoi sert ce dataset ?
- Entraîner des modèles de reconnaissance vocale automatique (ASR) en anglais sur de grandes quantités de données.
- Former des systèmes de synthèse vocale (TTS) à partir d’audio varié et de qualité.
- Tester et évaluer des modèles dans divers domaines thématiques et styles de parole.
Peut-on l’enrichir ou l’améliorer ?
Oui, le dataset peut être complété par des annotations supplémentaires, segmentations plus fines, ou intégrations de nouvelles sources audio. Il est aussi possible d’adapter les transcriptions pour des cas d’usage spécifiques ou d’ajouter des métadonnées pour enrichir les expériences utilisateurs.
🔎 En résumé
🧠 Recommandé pour
- Équipes développant des outils utilisant des techniques d'ASR
- Projets TTS
- Chercheurs en IA audio ou IA multimodale
🔧 Outils compatibles
- Kaldi
- ESPnet
- Hugging Face Transformers
- Wav2vec 2.0
- SpeechBrain
💡 Astuce
Utiliser les différentes configurations pour ajuster le volume selon vos ressources et besoins.
Questions fréquemment posées
Quelles sont les sources audio principales de GigaSpeech ?
Audiobooks, podcasts et vidéos YouTube couvrant une variété de sujets et styles de parole.
Peut-on utiliser GigaSpeech pour la synthèse vocale (TTS) ?
Oui, le dataset est adapté pour entraîner des modèles de text-to-speech en plus de la reconnaissance vocale.
Le dataset contient-il plusieurs tailles de sous-ensembles ?
Oui, il propose cinq configurations de différentes tailles, de 10 heures (XS) à 10 000 heures (XL), pour s’adapter à divers usages.