AudioMNIST
AudiOmnist es un conjunto de datos de audio diseñado para el reconocimiento automático de voz. Contiene grabaciones de números (del 0 al 9) pronunciados por varias docenas de hablantes, en condiciones controladas. Este conjunto de datos es una referencia para las tareas de clasificación de palabras cortas y el estudio de las representaciones vocales.
Aproximadamente 30 000 archivos de audio, formato WAV
Acceso abierto para uso académico y de investigación, bajo una licencia de atribución Creative Commons
Descripción
Cada grabación es un archivo WAV que contiene un número aislado. El conjunto de datos está estructurado con:
- 30 000 clips de audio de números (0-9)
- 60 altavoces diferentes (hombres y mujeres)
- Información sobre el sexo, la edad y los antecedentes lingüísticos de los participantes
- Un entorno de sonido controlado para minimizar el ruido extraño
- Muestreo de 48 kHz para una calidad de análisis óptima
El conjunto de datos se utiliza a menudo para la clasificación supervisada y las tareas de aprendizaje autosupervisadas en audio.
¿Para qué sirve este conjunto de datos?
AudiOmnist se utiliza para:
- Entrenamiento de modelos de clasificación de audio con controles simples
- El punto de referencia de las redes neuronales para el reconocimiento de voz
- El estudio de la variabilidad entre hablantes (edad, género, acento)
- Investigación sobre incrustaciones vocales, fonética y acústica
- Experimentación con modelos CNN o Transformer en espectrogramas
¿Se puede enriquecer o mejorar?
Sí, hay varias rutas posibles:
- Agregue ruido de fondo o distorsiones para probar la robustez
- Amplíe el conjunto de datos a otros idiomas o acentos
- Complementar con datos visuales para enfoques audiovisuales
- Utilice los datos para el aprendizaje contrastado o la codificación automática de audio
🔗 Fuente: Conjunto de datos AudiOmnist
Preguntas frecuentes
¿Se puede utilizar este conjunto de datos con fines comerciales?
No, el uso se limita a la investigación académica. Para uso comercial, se recomienda ponerse en contacto con los autores del conjunto de datos.
¿Por qué se llama AudiOmnist?
En referencia al famoso conjunto de datos MNIST (figuras manuscritas), AudiOmnist ofrece una versión vocal con la misma lógica para clasificar números simples.
¿Los ponentes son multilingües?
Sí, aunque las grabaciones están en inglés, los hablantes provienen de una variedad de orígenes lingüísticos, lo que introduce una variedad de acentos.