ESC-50 (Clasificación de sonido ambiental)

La ESC-50 (Clasificación de sonidos ambientales) es un conjunto de datos de audio para modelos de entrenamiento que pueden reconocer los sonidos ambientales. Reúne clips de sonido divididos en cinco categorías principales, que representan sonidos naturales o cotidianos, útiles para el reconocimiento acústico automático.

Obtén el dataset

Tamaño

2000 clips de audio de 5 segundos cada uno, formato WAV

Licencia

Gratis bajo una licencia de atribución no comercial de Creative Commons (CC BY-NC)

Descripción

‍
El conjunto de datos ESC-50 incluye:

2000 archivos de audio de alta calidad (44,1 kHz, mono)
Duración estandarizada de 5 segundos por clip
50 clases divididas en 5 categorías principales:
- Animales (pájaros, perros, insectos...)
- Sonidos naturales (lluvia, viento, fuego...)
- Ruidos humanos (reír, toser, estornudar...)
- Aparatos electrodomésticos (relojes, puertas, aspiradoras...)
- Entornos urbanos (sirenas, tráfico, construcción...)

‍

Las anotaciones precisas facilitan su uso directo para las tareas supervisadas.

‍

¿Para qué sirve este conjunto de datos?

‍
El ESC-50 se utiliza principalmente para:

Modelos de clasificación de audio supervisados por entrenamiento
La validación de técnicas de aprendizaje automático en sonidos reales
El desarrollo de sistemas de reconocimiento de audio embebidos
Análisis acústico o psicoacústico de sonidos naturales o urbanos
Investigación en inteligencia artificial de audio y evaluación de nuevos algoritmos

‍

¿Se puede enriquecer o mejorar?

‍
Sí, hay varias opciones posibles:

La adición de sonidos con un ruido de fondo realista para aumentar la robustez
Mezclar o superponer sonidos para estudiar la separación de fuentes
Ampliación con categorías o registros adicionales
Integración con otros corpus (AudioSet, UrbanSound8k) para ampliar la diversidad de clases

‍

🔗 Fuente: Conjunto de datos ESC-50

‍

Preguntas frecuentes

¿Se puede utilizar el ESC-50 para aplicaciones comerciales?

No directamente. El ESC-50 se publica bajo una licencia Creative Commons BY-NC (no comercial). Para uso comercial, póngase en contacto con los autores.

¿Los sonidos del conjunto de datos son reales o sintéticos?

Todos los sonidos son reales, grabados en condiciones naturales o domésticas, lo que garantiza la autenticidad del sonido.

¿Hay versiones ampliadas del conjunto de datos ESC-50?

Sí, hay otros conjuntos de datos similares, como AudioSet, UrbanSound8k o ESC-10 (versión reducida).

Otros datasets

Multimodal

Medical Speech Transcription and Intent Dataset

Imagen

DOTA (conjunto de datos para la detección de objetos en imágenes aéreas)

Multimodal

MM-IMDb (conjunto de datos IMDb multimodal)