Synthetic Speech Commands

Corpus audio open source de mots isolés, générés par synthèse vocale, conçu pour entraîner des modèles de détection de commandes vocales.

Télécharger le dataset

Taille

83 700 fichiers WAV (1s, mono, 16 kHz)

Licence

CC BY-SA 4.0

Description

‍

Ce dataset contient plus de 83 000 fichiers audio générés par synthèse vocale (text-to-speech) représentant des mots simples (comme "up", "down", "yes", "go"). Chaque mot est généré avec des variations de voix, de pitch, de vitesse et de bruit de fond (ex. : rue, train, mer). Les fichiers sont au format WAV, d’une durée de 1 seconde, en 16kHz, mono.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de détection de mots-clés (keyword spotting)
Tester la robustesse des modèles face à différents types de bruit (bruit synthétique, environnemental)
Créer des assistants vocaux ou interfaces commandées vocalement (IoT, robotique)

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. Il est possible de mélanger ces données avec des enregistrements réels pour améliorer la robustesse des modèles. D’autres mots peuvent aussi être ajoutés via le même pipeline TTS. Enfin, la classification fine par type de bruit ou locuteur synthétique pourrait enrichir les annotations.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐⭐ (Très simple – données audio bien formatées)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible – qualité audio uniforme)
🏷️ Richesse des annotations	⭐⭐⭐✩✩ (Moyenne – uniquement le mot prononcé)
📜 Licence commerciale	✅ Oui (CC BY-SA 4.0)
👨‍💻 Idéal pour les débutants	🌟 Oui – parfait pour s’initier à l’audio
🔁 Réutilisable en fine-tuning	⚡ Très utile pour affiner un modèle léger de reconnaissance vocale
🌍 Diversité culturelle	⚠️ Limité – uniquement voix synthétiques en anglais