Comandos de voz de Google

El conjunto de datos de comandos de voz de Google consiste en grabaciones de voz breves que contienen comandos sencillos pronunciados por diferentes altavoces. Este corpus está diseñado para entrenar modelos de reconocimiento de voz de baja latencia.

Obtén el dataset

Tamaño

Aproximadamente 105.000 archivos de audio, formato WAV

Licencia

Acceso abierto bajo una licencia Creative Commons Attribution 4.0

Descripción

‍
Este conjunto de datos de audio contiene:

Aproximadamente 105.000 clips que duran aproximadamente 1 segundo
Más de 30 comandos de voz distintos
Grabaciones recopiladas de miles de ponentes
Un fondo relativamente limpio o ligeramente ruidoso
Una versión con ruido de fondo artificial añadido para un entrenamiento robusto

‍

El conjunto de datos es particularmente adecuado para aplicaciones integradas o móviles que requieren un reconocimiento rápido y preciso de las palabras clave de voz.

‍

¿Para qué sirve este conjunto de datos?

‍
Los comandos de voz de Google se utilizan para:

Entrenamiento de modelos ligeros de reconocimiento de palabras clave
El desarrollo de interfaces de voz para dispositivos conectados (IoT, domótica)
Evaluación del desempeño en las tareas de detección de comandos
Análisis de señales de audio cortas y propiedades fonéticas

‍

¿Se puede enriquecer o mejorar?

‍
Sí, en particular mediante:

La adición de ruido de fondo real (voz, calle, naturaleza...) para probar la robustez
La creación de nuevos conjuntos de palabras clave específicas para una aplicación
Afinación con voces locales o en otros idiomas
Integración en arquitecturas en tiempo real (TinyML, IA en el dispositivo)

‍

🔗 Fuente: Conjunto de datos de comandos de voz de Google

‍

Preguntas frecuentes

¿Se puede usar este conjunto de datos para aplicaciones comerciales?

Sí, siempre y cuando cumplas con los términos de la licencia CC-BY 4.0, incluida la atribución correcta a Google.

¿Es multilingüe?

No, este conjunto de datos está principalmente en inglés. Se requieren otros proyectos para los modelos multilingües.

¿Se puede usar con modelos como Whisper, Wav2Vec o DeepSpeech?

Absolutamente. Este conjunto de datos es compatible con la mayoría de los marcos de reconocimiento de voz de código abierto y es ideal para tareas supervisadas de clasificación de audio.

Otros datasets

RAVDESS

Geometry3k

Dormitorios LSUN