Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
AudioMNIST
Audio

AudioMNIST

AudiOmnist es un conjunto de datos de audio diseñado para el reconocimiento automático de voz. Contiene grabaciones de números (del 0 al 9) pronunciados por varias docenas de hablantes, en condiciones controladas. Este conjunto de datos es una referencia para las tareas de clasificación de palabras cortas y el estudio de las representaciones vocales.

Obtén el dataset
Tamaño

Aproximadamente 30 000 archivos de audio, formato WAV

Licencia

Acceso abierto para uso académico y de investigación, bajo una licencia de atribución Creative Commons

Descripción


Cada grabación es un archivo WAV que contiene un número aislado. El conjunto de datos está estructurado con:

  • 30 000 clips de audio de números (0-9)
  • 60 altavoces diferentes (hombres y mujeres)
  • Información sobre el sexo, la edad y los antecedentes lingüísticos de los participantes
  • Un entorno de sonido controlado para minimizar el ruido extraño
  • Muestreo de 48 kHz para una calidad de análisis óptima

El conjunto de datos se utiliza a menudo para la clasificación supervisada y las tareas de aprendizaje autosupervisadas en audio.

¿Para qué sirve este conjunto de datos?


AudiOmnist se utiliza para:

  • Entrenamiento de modelos de clasificación de audio con controles simples
  • El punto de referencia de las redes neuronales para el reconocimiento de voz
  • El estudio de la variabilidad entre hablantes (edad, género, acento)
  • Investigación sobre incrustaciones vocales, fonética y acústica
  • Experimentación con modelos CNN o Transformer en espectrogramas

¿Se puede enriquecer o mejorar?


Sí, hay varias rutas posibles:

  • Agregue ruido de fondo o distorsiones para probar la robustez
  • Amplíe el conjunto de datos a otros idiomas o acentos
  • Complementar con datos visuales para enfoques audiovisuales
  • Utilice los datos para el aprendizaje contrastado o la codificación automática de audio

🔗 Fuente: Conjunto de datos AudiOmnist

Preguntas frecuentes

¿Se puede utilizar este conjunto de datos con fines comerciales?

No, el uso se limita a la investigación académica. Para uso comercial, se recomienda ponerse en contacto con los autores del conjunto de datos.

¿Por qué se llama AudiOmnist?

En referencia al famoso conjunto de datos MNIST (figuras manuscritas), AudiOmnist ofrece una versión vocal con la misma lógica para clasificar números simples.

¿Los ponentes son multilingües?

Sí, aunque las grabaciones están en inglés, los hablantes provienen de una variedad de orígenes lingüísticos, lo que introduce una variedad de acentos.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.