LibriSpeech

LibriSpeech est un dataset audio de référence dans le domaine de la reconnaissance automatique de la parole (ASR). Il est composé d’enregistrements de livres du domaine public lus à haute voix par des locuteurs anglophones, accompagnés de leurs transcriptions textuelles précises.

Télécharger le dataset

Taille

Environ 1000 heures d’audio au format FLAC, avec transcriptions associées en TXT

Licence

Libre pour un usage académique et commercial, sous licence Creative Commons

Description

‍
Le dataset LibriSpeech comprend :

Environ 1000 heures d’audio en anglais au format FLAC
Des transcriptions mot à mot au format TXT
Des sous-ensembles organisés selon la qualité d’alignement et la complexité des enregistrements (clean, other)
Une base d’origine issue du projet LibriVox, avec des textes du domaine public

‍

À quoi sert ce dataset ?

‍
LibriSpeech est largement utilisé pour :

L’entraînement de modèles de reconnaissance vocale (ASR)
Le fine-tuning ou l’évaluation de modèles pré-entraînés comme Whisper, Wav2Vec, ou DeepSpeech
La recherche sur la compréhension vocale, la segmentation audio, ou l’alignement audio-texte
L’amélioration des technologies de synthèse et d’interaction vocale

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, bien que déjà très structuré, LibriSpeech peut être adapté pour :

Ajouter des annotations prosodiques ou phonétiques
Combiner avec des corpus multilingues pour la reconnaissance de code-switching
Créer des variantes bruitées ou accentuées pour tester la robustesse des modèles
Intégrer dans des pipelines d’alignement multimodal audio-texte

‍

🔗 Source : LibriSpeech Dataset

‍

Questions fréquemment posées

Quelle est la différence entre les subsets “clean” et “other” ?

Les enregistrements “clean” ont une meilleure qualité audio et une diction plus claire, tandis que les fichiers “other” sont plus complexes (accents marqués, bruit de fond, lecture plus rapide, etc.).

Peut-on utiliser LibriSpeech pour des langues autres que l’anglais ?

Non, LibriSpeech est exclusivement en anglais. Pour d’autres langues, il existe des équivalents comme Common Voice, Multilingual LibriSpeech, ou VoxPopuli.

LibriSpeech est-il adapté à la synthèse vocale ?

Oui, même si ce n’est pas son usage principal. Les enregistrements bien segmentés et les transcriptions alignées le rendent utile pour entraîner ou évaluer des systèmes TTS (text-to-speech).

Datasets similaires

Image

Fashion Product Images Small

Medical

TCIA Dataset (The Cancer Imaging Archive)

Texte

MidJourney v5 Prompt Dataset