AudioMNIST

AudiOmnist es un conjunto de datos de audio diseñado para el reconocimiento automático de voz. Contiene grabaciones de números (del 0 al 9) pronunciados por varias docenas de hablantes, en condiciones controladas. Este conjunto de datos es una referencia para las tareas de clasificación de palabras cortas y el estudio de las representaciones vocales.

Obtén el dataset

Tamaño

Aproximadamente 30 000 archivos de audio, formato WAV

Licencia

Acceso abierto para uso académico y de investigación, bajo una licencia de atribución Creative Commons

Descripción

‍
Cada grabación es un archivo WAV que contiene un número aislado. El conjunto de datos está estructurado con:

30 000 clips de audio de números (0-9)
60 altavoces diferentes (hombres y mujeres)
Información sobre el sexo, la edad y los antecedentes lingüísticos de los participantes
Un entorno de sonido controlado para minimizar el ruido extraño
Muestreo de 48 kHz para una calidad de análisis óptima

‍

El conjunto de datos se utiliza a menudo para la clasificación supervisada y las tareas de aprendizaje autosupervisadas en audio.

‍

¿Para qué sirve este conjunto de datos?

‍
AudiOmnist se utiliza para:

Entrenamiento de modelos de clasificación de audio con controles simples
El punto de referencia de las redes neuronales para el reconocimiento de voz
El estudio de la variabilidad entre hablantes (edad, género, acento)
Investigación sobre incrustaciones vocales, fonética y acústica
Experimentación con modelos CNN o Transformer en espectrogramas

‍

¿Se puede enriquecer o mejorar?

‍
Sí, hay varias rutas posibles:

Agregue ruido de fondo o distorsiones para probar la robustez
Amplíe el conjunto de datos a otros idiomas o acentos
Complementar con datos visuales para enfoques audiovisuales
Utilice los datos para el aprendizaje contrastado o la codificación automática de audio

‍

🔗 Fuente: Conjunto de datos AudiOmnist

‍

Preguntas frecuentes

¿Se puede utilizar este conjunto de datos con fines comerciales?

No, el uso se limita a la investigación académica. Para uso comercial, se recomienda ponerse en contacto con los autores del conjunto de datos.

¿Por qué se llama AudiOmnist?

En referencia al famoso conjunto de datos MNIST (figuras manuscritas), AudiOmnist ofrece una versión vocal con la misma lógica para clasificar números simples.

¿Los ponentes son multilingües?

Sí, aunque las grabaciones están en inglés, los hablantes provienen de una variedad de orígenes lingüísticos, lo que introduce una variedad de acentos.

Otros datasets

Imagen

Tennis Player Actions Dataset

Texto

Synthetic Clinical Notes Embedded

Imagen

Art Portraits