AudioSet
AudioSet es un vasto corpus de audio compilado por Google, que contiene millones de clips de sonido de vídeos de YouTube. Cada clip, que dura 10 segundos, está anotado con una o más etiquetas de un vocabulario estructurado de más de 600 categorías de sonidos.
Más de 2 millones de clips de audio con anotaciones, formatos WAV (mediante extracción) y JSON (anotaciones)
Acceso gratuito para fines de investigación, con anotaciones proporcionadas por Google bajo una licencia Creative Commons (el audio original permanece alojado en YouTube)
Descripción
AudioSet cubre una amplia variedad de sonidos del mundo real:
- Sonidos humanos: habla, risa, tos, gritos, aplausos,...
- Sonidos de animales: ladridos, cantos de pájaros, gallinas,...
- Sonidos mecánicos: motores, alarmas, sirenas, herramientas, vehículos,...
- Ambientes: lluvia, viento, multitud, bosque, aula,...
- Música: instrumentos, canciones, varios géneros musicales
Las anotaciones tienen prioridad y son el resultado de un proceso semiautomático validado manualmente en un subconjunto.
¿Para qué sirve este conjunto de datos?
AudioSet se utiliza para:
- Modelos de formación para la clasificación y detección de sonidos ambientales
- El desarrollo de sistemas de reconocimiento de sonido en tiempo real
- Anotación de escenas de audio complejas para dispositivos robóticos o integrados
- El estudio de los contextos acústicos en proyectos de audio o IA multimodal
- El análisis de eventos sonoros para la creación de bancos de audio o síntesis generativa
¿Se puede enriquecer o mejorar?
Sí, por ejemplo:
- Al combinar AudioSet con extractos que se almacenan localmente o se capturan en tiempo real
- Refinando las categorías para contextos industriales o médicos específicos
- Aplicando técnicas de segmentación o separación de fuentes
- Uso de incrustaciones de audio como entrada en modelos multimodales
🔗 Fuente: Conjunto de datos AudioSet
Preguntas frecuentes
¿Los archivos de audio se pueden descargar directamente?
No Solo se proporcionan anotaciones y enlaces de vídeo. Las muestras de audio deben extraerse a través de enlaces de YouTube, de acuerdo con los términos de uso.
¿Se puede utilizar AudioSet comercialmente?
Las anotaciones son gratuitas, pero el audio original está sujeto a los derechos de autor de YouTube, por lo que es necesario comprobar la licencia para su uso comercial.
¿El conjunto de datos es multilingüe?
Indirectamente, sí. Los sonidos de voz provienen de vídeos multilingües, pero las anotaciones están en inglés.