En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
AudioMNIST
Audio

AudioMNIST

AudioMNIST est un jeu de données audio conçu pour la reconnaissance automatique de la parole. Il contient des enregistrements de chiffres (de 0 à 9) prononcés par plusieurs dizaines de locuteurs, dans des conditions contrôlées. Ce dataset constitue une référence pour les tâches de classification de mots courts et l’étude des représentations vocales.

Télécharger le dataset
Taille

Environ 30,000 fichiers audio, format WAV

Licence

Accès libre pour usage académique et recherche, sous licence Creative Commons Attribution

Description


Chaque enregistrement est un fichier WAV contenant un chiffre isolé. Le dataset est structuré avec :

  • 30 000 clips audio de chiffres (0–9)
  • 60 locuteurs différents (hommes et femmes)
  • Des informations sur le genre, l’âge et l’origine linguistique des participants
  • Un environnement sonore contrôlé pour minimiser les bruits parasites
  • Un échantillonnage à 48 kHz pour une qualité d’analyse optimale

Le dataset est souvent utilisé pour des tâches de classification supervisée et d'apprentissage auto-supervisé dans l'audio.

À quoi sert ce dataset ?


AudioMNIST est utilisé pour :

  • L’entraînement de modèles de classification audio sur des commandes simples
  • Le benchmark de réseaux de neurones pour la reconnaissance vocale
  • L’étude de la variabilité inter-locuteur (âge, genre, accent)
  • La recherche sur les embeddings vocaux, la phonétique et l’acoustique
  • L’expérimentation avec des modèles de type CNN ou Transformer sur des spectrogrammes

Peut-on l’enrichir ou l’améliorer ?


Oui, plusieurs pistes possibles :

  • Ajouter du bruit de fond ou des distorsions pour tester la robustesse
  • Étendre le dataset à d’autres langues ou accents
  • Compléter par des données visuelles pour des approches audio-visuelles
  • Utiliser les données pour l’apprentissage contrastif ou l’auto-encodage audio

🔗 Source : AudioMNIST Dataset

Questions fréquemment posées

Peut-on utiliser ce dataset à des fins commerciales ?

Non, l’usage est limité à la recherche académique. Pour un usage commercial, il est recommandé de contacter les auteurs du dataset.

Pourquoi l’appelle-t-on AudioMNIST ?

En référence au célèbre dataset MNIST (chiffres manuscrits), AudioMNIST propose une version vocale avec la même logique de classification de chiffres simples.

Est-ce que les locuteurs sont multilingues ?

Oui, bien que les enregistrements soient en anglais, les locuteurs viennent de milieux linguistiques variés, ce qui introduit une diversité d’accents.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.