AudioMNIST

AudioMNIST est un jeu de données audio conçu pour la reconnaissance automatique de la parole. Il contient des enregistrements de chiffres (de 0 à 9) prononcés par plusieurs dizaines de locuteurs, dans des conditions contrôlées. Ce dataset constitue une référence pour les tâches de classification de mots courts et l’étude des représentations vocales.

Télécharger le dataset

Taille

Environ 30,000 fichiers audio, format WAV

Licence

Accès libre pour usage académique et recherche, sous licence Creative Commons Attribution

Description

‍
Chaque enregistrement est un fichier WAV contenant un chiffre isolé. Le dataset est structuré avec :

30 000 clips audio de chiffres (0–9)
60 locuteurs différents (hommes et femmes)
Des informations sur le genre, l’âge et l’origine linguistique des participants
Un environnement sonore contrôlé pour minimiser les bruits parasites
Un échantillonnage à 48 kHz pour une qualité d’analyse optimale

‍

Le dataset est souvent utilisé pour des tâches de classification supervisée et d'apprentissage auto-supervisé dans l'audio.

‍

À quoi sert ce dataset ?

‍
AudioMNIST est utilisé pour :

L’entraînement de modèles de classification audio sur des commandes simples
Le benchmark de réseaux de neurones pour la reconnaissance vocale
L’étude de la variabilité inter-locuteur (âge, genre, accent)
La recherche sur les embeddings vocaux, la phonétique et l’acoustique
L’expérimentation avec des modèles de type CNN ou Transformer sur des spectrogrammes

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, plusieurs pistes possibles :

Ajouter du bruit de fond ou des distorsions pour tester la robustesse
Étendre le dataset à d’autres langues ou accents
Compléter par des données visuelles pour des approches audio-visuelles
Utiliser les données pour l’apprentissage contrastif ou l’auto-encodage audio

‍

🔗 Source : AudioMNIST Dataset

‍

Questions fréquemment posées

Peut-on utiliser ce dataset à des fins commerciales ?

Non, l’usage est limité à la recherche académique. Pour un usage commercial, il est recommandé de contacter les auteurs du dataset.

Pourquoi l’appelle-t-on AudioMNIST ?

En référence au célèbre dataset MNIST (chiffres manuscrits), AudioMNIST propose une version vocale avec la même logique de classification de chiffres simples.

Est-ce que les locuteurs sont multilingues ?

Oui, bien que les enregistrements soient en anglais, les locuteurs viennent de milieux linguistiques variés, ce qui introduit une diversité d’accents.

Datasets similaires

OpenNeuro

GigaSpeech

World Bank Open Data