En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
LibriSpeech
Multimodal

LibriSpeech

LibriSpeech est un dataset audio de référence dans le domaine de la reconnaissance automatique de la parole (ASR). Il est composé d’enregistrements de livres du domaine public lus à haute voix par des locuteurs anglophones, accompagnés de leurs transcriptions textuelles précises.

Télécharger le dataset
Taille

Environ 1000 heures d’audio au format FLAC, avec transcriptions associées en TXT

Licence

Libre pour un usage académique et commercial, sous licence Creative Commons

Description


Le dataset LibriSpeech comprend :

  • Environ 1000 heures d’audio en anglais au format FLAC
  • Des transcriptions mot à mot au format TXT
  • Des sous-ensembles organisés selon la qualité d’alignement et la complexité des enregistrements (clean, other)
  • Une base d’origine issue du projet LibriVox, avec des textes du domaine public

À quoi sert ce dataset ?


LibriSpeech est largement utilisé pour :

  • L’entraînement de modèles de reconnaissance vocale (ASR)
  • Le fine-tuning ou l’évaluation de modèles pré-entraînés comme Whisper, Wav2Vec, ou DeepSpeech
  • La recherche sur la compréhension vocale, la segmentation audio, ou l’alignement audio-texte
  • L’amélioration des technologies de synthèse et d’interaction vocale

Peut-on l’enrichir ou l’améliorer ?


Oui, bien que déjà très structuré, LibriSpeech peut être adapté pour :

  • Ajouter des annotations prosodiques ou phonétiques
  • Combiner avec des corpus multilingues pour la reconnaissance de code-switching
  • Créer des variantes bruitées ou accentuées pour tester la robustesse des modèles
  • Intégrer dans des pipelines d’alignement multimodal audio-texte

🔗 Source : LibriSpeech Dataset

Questions fréquemment posées

Quelle est la différence entre les subsets “clean” et “other” ?

Les enregistrements “clean” ont une meilleure qualité audio et une diction plus claire, tandis que les fichiers “other” sont plus complexes (accents marqués, bruit de fond, lecture plus rapide, etc.).

Peut-on utiliser LibriSpeech pour des langues autres que l’anglais ?

Non, LibriSpeech est exclusivement en anglais. Pour d’autres langues, il existe des équivalents comme Common Voice, Multilingual LibriSpeech, ou VoxPopuli.

LibriSpeech est-il adapté à la synthèse vocale ?

Oui, même si ce n’est pas son usage principal. Les enregistrements bien segmentés et les transcriptions alignées le rendent utile pour entraîner ou évaluer des systèmes TTS (text-to-speech).

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.