En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Google Speech Commands
Audio

Google Speech Commands

Le dataset Google Speech Commands regroupe des enregistrements vocaux courts contenant des commandes simples prononcées par différents locuteurs. Ce corpus est conçu pour entraîner des modèles de reconnaissance vocale à faible latence

Télécharger le dataset
Taille

Environ 105,000 fichiers audio, format WAV

Licence

Accès libre sous licence Creative Commons Attribution 4.0

Description


Ce jeu de données audio contient :

  • Environ 105,000 clips d’une durée d’environ 1 seconde
  • Plus de 30 commandes vocales distinctes
  • Des enregistrements collectés auprès de milliers de locuteurs
  • Un fond sonore relativement propre ou légèrement bruité
  • Une version avec bruit de fond artificiel ajoutée pour le training robuste

Le dataset est particulièrement adapté aux applications embarquées ou mobiles nécessitant une reconnaissance rapide et précise de mots-clés vocaux.

À quoi sert ce dataset ?


Google Speech Commands est utilisé pour :

  • L’entraînement de modèles légers de reconnaissance de mots-clés
  • Le développement d’interfaces vocales pour appareils connectés (IoT, domotique)
  • L’évaluation de performances sur des tâches de détection de commandes
  • L’analyse des signaux audio courts et des propriétés phonétiques

Peut-on l’enrichir ou l’améliorer ?


Oui, notamment par :

  • L’ajout de bruit de fond réel (voix, rue, nature…) pour tester la robustesse
  • La création de nouveaux jeux de mots-clés spécifiques à une application
  • Le fine-tuning avec des voix locales ou dans d’autres langues
  • L’intégration dans des architectures temps réel (TinyML, on-device AI)

🔗 Source : Google Speech Commands Dataset

Questions fréquemment posées

Ce dataset peut-il être utilisé pour des applications commerciales ?

Oui, à condition de respecter les termes de la licence CC-BY 4.0, incluant l’attribution correcte à Google.

Est-il multilingue ?

Non, ce dataset est principalement en anglais. D'autres projets sont nécessaires pour des modèles multilingues.

Peut-on l’utiliser avec des modèles comme Whisper, Wav2Vec ou DeepSpeech ?

Absolument. Ce dataset est compatible avec la plupart des frameworks de reconnaissance vocale open source, et idéal pour des tâches de classification audio supervisée.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.