LibriSpeech
LibriSpeech est un dataset audio de référence dans le domaine de la reconnaissance automatique de la parole (ASR). Il est composé d’enregistrements de livres du domaine public lus à haute voix par des locuteurs anglophones, accompagnés de leurs transcriptions textuelles précises.
Environ 1000 heures d’audio au format FLAC, avec transcriptions associées en TXT
Libre pour un usage académique et commercial, sous licence Creative Commons
Description
Le dataset LibriSpeech comprend :
- Environ 1000 heures d’audio en anglais au format FLAC
- Des transcriptions mot à mot au format TXT
- Des sous-ensembles organisés selon la qualité d’alignement et la complexité des enregistrements (clean, other)
- Une base d’origine issue du projet LibriVox, avec des textes du domaine public
À quoi sert ce dataset ?
LibriSpeech est largement utilisé pour :
- L’entraînement de modèles de reconnaissance vocale (ASR)
- Le fine-tuning ou l’évaluation de modèles pré-entraînés comme Whisper, Wav2Vec, ou DeepSpeech
- La recherche sur la compréhension vocale, la segmentation audio, ou l’alignement audio-texte
- L’amélioration des technologies de synthèse et d’interaction vocale
Peut-on l’enrichir ou l’améliorer ?
Oui, bien que déjà très structuré, LibriSpeech peut être adapté pour :
- Ajouter des annotations prosodiques ou phonétiques
- Combiner avec des corpus multilingues pour la reconnaissance de code-switching
- Créer des variantes bruitées ou accentuées pour tester la robustesse des modèles
- Intégrer dans des pipelines d’alignement multimodal audio-texte
🔗 Source : LibriSpeech Dataset
Questions fréquemment posées
Quelle est la différence entre les subsets “clean” et “other” ?
Les enregistrements “clean” ont une meilleure qualité audio et une diction plus claire, tandis que les fichiers “other” sont plus complexes (accents marqués, bruit de fond, lecture plus rapide, etc.).
Peut-on utiliser LibriSpeech pour des langues autres que l’anglais ?
Non, LibriSpeech est exclusivement en anglais. Pour d’autres langues, il existe des équivalents comme Common Voice, Multilingual LibriSpeech, ou VoxPopuli.
LibriSpeech est-il adapté à la synthèse vocale ?
Oui, même si ce n’est pas son usage principal. Les enregistrements bien segmentés et les transcriptions alignées le rendent utile pour entraîner ou évaluer des systèmes TTS (text-to-speech).