En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
GigaSpeech
Audio

GigaSpeech

GigaSpeech est un vaste corpus anglais multi-domaines regroupant jusqu’à 10 000 heures d’audio de haute qualité issues d’audiobooks, podcasts et vidéos YouTube. Il inclut différents styles de parole, du discours lu à la parole spontanée, sur divers sujets. Le dataset est conçu pour la reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS).

Télécharger le dataset
Taille

Jusqu’à 10 000 heures d’audio transcrit, fichiers WAV/Opus, segments audio variés

Licence

Apache 2.0

Description

Le dataset GigaSpeech contient un vaste ensemble d’audio transcrit en anglais, collecté depuis diverses sources comme les audiobooks, podcasts, et vidéos YouTube. Il propose plusieurs configurations allant de 10 heures (XS) à 10 000 heures (XL) pour s’adapter aux besoins de recherche et industriels. Les segments audio sont accompagnés de transcriptions textuelles précises, permettant d’entraîner des modèles robustes de reconnaissance et synthèse vocale.

À quoi sert ce dataset ?

  • Entraîner des modèles de reconnaissance vocale automatique (ASR) en anglais sur de grandes quantités de données.
  • Former des systèmes de synthèse vocale (TTS) à partir d’audio varié et de qualité.
  • Tester et évaluer des modèles dans divers domaines thématiques et styles de parole.

Peut-on l’enrichir ou l’améliorer ?

Oui, le dataset peut être complété par des annotations supplémentaires, segmentations plus fines, ou intégrations de nouvelles sources audio. Il est aussi possible d’adapter les transcriptions pour des cas d’usage spécifiques ou d’ajouter des métadonnées pour enrichir les expériences utilisateurs.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐☆☆ (Nécessite gestion des gros volumes et formats variés)
🧼Besoin de nettoyage ⭐⭐⭐☆☆ (Modéré : contrôle qualité recommandé selon les sources audio)
🏷️Richesse des annotations ⭐⭐⭐☆☆ (Transcriptions textuelles précises, peu d’annotations supplémentaires)
📜Licence commerciale ✅ Libre et commerciale (Apache 2.0)
👨‍💻Idéal pour les débutants ⚠️ Recommandé pour utilisateurs avec expérience audio
🔁Réutilisable en fine-tuning 🔥 Excellent pour fine-tuning ASR et TTS
🌍Diversité culturelle 🌐 Anglais uniquement, multi-domaines

🧠 Recommandé pour

  • Équipes développant des outils utilisant des techniques d'ASR
  • Projets TTS
  • Chercheurs en IA audio ou IA multimodale

🔧 Outils compatibles

  • Kaldi
  • ESPnet
  • Hugging Face Transformers
  • Wav2vec 2.0
  • SpeechBrain

💡 Astuce

Utiliser les différentes configurations pour ajuster le volume selon vos ressources et besoins.

Questions fréquemment posées

Quelles sont les sources audio principales de GigaSpeech ?

Audiobooks, podcasts et vidéos YouTube couvrant une variété de sujets et styles de parole.

Peut-on utiliser GigaSpeech pour la synthèse vocale (TTS) ?

Oui, le dataset est adapté pour entraîner des modèles de text-to-speech en plus de la reconnaissance vocale.

Le dataset contient-il plusieurs tailles de sous-ensembles ?

Oui, il propose cinq configurations de différentes tailles, de 10 heures (XS) à 10 000 heures (XL), pour s’adapter à divers usages.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.