Comandos de voz de Google
El conjunto de datos de comandos de voz de Google consiste en grabaciones de voz breves que contienen comandos sencillos pronunciados por diferentes altavoces. Este corpus está diseñado para entrenar modelos de reconocimiento de voz de baja latencia.
Aproximadamente 105.000 archivos de audio, formato WAV
Acceso abierto bajo una licencia Creative Commons Attribution 4.0
Descripción
Este conjunto de datos de audio contiene:
- Aproximadamente 105.000 clips que duran aproximadamente 1 segundo
- Más de 30 comandos de voz distintos
- Grabaciones recopiladas de miles de ponentes
- Un fondo relativamente limpio o ligeramente ruidoso
- Una versión con ruido de fondo artificial añadido para un entrenamiento robusto
El conjunto de datos es particularmente adecuado para aplicaciones integradas o móviles que requieren un reconocimiento rápido y preciso de las palabras clave de voz.
¿Para qué sirve este conjunto de datos?
Los comandos de voz de Google se utilizan para:
- Entrenamiento de modelos ligeros de reconocimiento de palabras clave
- El desarrollo de interfaces de voz para dispositivos conectados (IoT, domótica)
- Evaluación del desempeño en las tareas de detección de comandos
- Análisis de señales de audio cortas y propiedades fonéticas
¿Se puede enriquecer o mejorar?
Sí, en particular mediante:
- La adición de ruido de fondo real (voz, calle, naturaleza...) para probar la robustez
- La creación de nuevos conjuntos de palabras clave específicas para una aplicación
- Afinación con voces locales o en otros idiomas
- Integración en arquitecturas en tiempo real (TinyML, IA en el dispositivo)
🔗 Fuente: Conjunto de datos de comandos de voz de Google
Preguntas frecuentes
¿Se puede usar este conjunto de datos para aplicaciones comerciales?
Sí, siempre y cuando cumplas con los términos de la licencia CC-BY 4.0, incluida la atribución correcta a Google.
¿Es multilingüe?
No, este conjunto de datos está principalmente en inglés. Se requieren otros proyectos para los modelos multilingües.
¿Se puede usar con modelos como Whisper, Wav2Vec o DeepSpeech?
Absolutamente. Este conjunto de datos es compatible con la mayoría de los marcos de reconocimiento de voz de código abierto y es ideal para tareas supervisadas de clasificación de audio.