Google Speech Commands

Le dataset Google Speech Commands regroupe des enregistrements vocaux courts contenant des commandes simples prononcées par différents locuteurs. Ce corpus est conçu pour entraîner des modèles de reconnaissance vocale à faible latence

Télécharger le dataset

Taille

Environ 105,000 fichiers audio, format WAV

Licence

Accès libre sous licence Creative Commons Attribution 4.0

Description

‍
Ce jeu de données audio contient :

Environ 105,000 clips d’une durée d’environ 1 seconde
Plus de 30 commandes vocales distinctes
Des enregistrements collectés auprès de milliers de locuteurs
Un fond sonore relativement propre ou légèrement bruité
Une version avec bruit de fond artificiel ajoutée pour le training robuste

‍

Le dataset est particulièrement adapté aux applications embarquées ou mobiles nécessitant une reconnaissance rapide et précise de mots-clés vocaux.

‍

À quoi sert ce dataset ?

‍
Google Speech Commands est utilisé pour :

L’entraînement de modèles légers de reconnaissance de mots-clés
Le développement d’interfaces vocales pour appareils connectés (IoT, domotique)
L’évaluation de performances sur des tâches de détection de commandes
L’analyse des signaux audio courts et des propriétés phonétiques

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, notamment par :

L’ajout de bruit de fond réel (voix, rue, nature…) pour tester la robustesse
La création de nouveaux jeux de mots-clés spécifiques à une application
Le fine-tuning avec des voix locales ou dans d’autres langues
L’intégration dans des architectures temps réel (TinyML, on-device AI)

‍

🔗 Source : Google Speech Commands Dataset

‍

Questions fréquemment posées

Ce dataset peut-il être utilisé pour des applications commerciales ?

Oui, à condition de respecter les termes de la licence CC-BY 4.0, incluant l’attribution correcte à Google.

Est-il multilingue ?

Non, ce dataset est principalement en anglais. D'autres projets sont nécessaires pour des modèles multilingues.

Peut-on l’utiliser avec des modèles comme Whisper, Wav2Vec ou DeepSpeech ?

Absolument. Ce dataset est compatible avec la plupart des frameworks de reconnaissance vocale open source, et idéal pour des tâches de classification audio supervisée.

Datasets similaires

Medical

Medical Instruction 100K

Texte

GoEmotions

Image

DOTA (Dataset for Object Detection in Aerial Images)