GigaSpeech

GigaSpeech est un vaste corpus anglais multi-domaines regroupant jusqu’à 10 000 heures d’audio de haute qualité issues d’audiobooks, podcasts et vidéos YouTube. Il inclut différents styles de parole, du discours lu à la parole spontanée, sur divers sujets. Le dataset est conçu pour la reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS).

Télécharger le dataset

Taille

Jusqu’à 10 000 heures d’audio transcrit, fichiers WAV/Opus, segments audio variés

Licence

Apache 2.0

Description

‍

Le dataset GigaSpeech contient un vaste ensemble d’audio transcrit en anglais, collecté depuis diverses sources comme les audiobooks, podcasts, et vidéos YouTube. Il propose plusieurs configurations allant de 10 heures (XS) à 10 000 heures (XL) pour s’adapter aux besoins de recherche et industriels. Les segments audio sont accompagnés de transcriptions textuelles précises, permettant d’entraîner des modèles robustes de reconnaissance et synthèse vocale.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de reconnaissance vocale automatique (ASR) en anglais sur de grandes quantités de données.
Former des systèmes de synthèse vocale (TTS) à partir d’audio varié et de qualité.
Tester et évaluer des modèles dans divers domaines thématiques et styles de parole.

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, le dataset peut être complété par des annotations supplémentaires, segmentations plus fines, ou intégrations de nouvelles sources audio. Il est aussi possible d’adapter les transcriptions pour des cas d’usage spécifiques ou d’ajouter des métadonnées pour enrichir les expériences utilisateurs.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐☆☆ (Nécessite gestion des gros volumes et formats variés)
🧼Besoin de nettoyage	⭐⭐⭐☆☆ (Modéré : contrôle qualité recommandé selon les sources audio)
🏷️Richesse des annotations	⭐⭐⭐☆☆ (Transcriptions textuelles précises, peu d’annotations supplémentaires)
📜Licence commerciale	✅ Libre et commerciale (Apache 2.0)
👨‍💻Idéal pour les débutants	⚠️ Recommandé pour utilisateurs avec expérience audio
🔁Réutilisable en fine-tuning	🔥 Excellent pour fine-tuning ASR et TTS
🌍Diversité culturelle	🌐 Anglais uniquement, multi-domaines