Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Comandos de voz de Google
Audio

Comandos de voz de Google

El conjunto de datos de comandos de voz de Google consiste en grabaciones de voz breves que contienen comandos sencillos pronunciados por diferentes altavoces. Este corpus está diseñado para entrenar modelos de reconocimiento de voz de baja latencia.

Obtén el dataset
Tamaño

Aproximadamente 105.000 archivos de audio, formato WAV

Licencia

Acceso abierto bajo una licencia Creative Commons Attribution 4.0

Descripción


Este conjunto de datos de audio contiene:

  • Aproximadamente 105.000 clips que duran aproximadamente 1 segundo
  • Más de 30 comandos de voz distintos
  • Grabaciones recopiladas de miles de ponentes
  • Un fondo relativamente limpio o ligeramente ruidoso
  • Una versión con ruido de fondo artificial añadido para un entrenamiento robusto

El conjunto de datos es particularmente adecuado para aplicaciones integradas o móviles que requieren un reconocimiento rápido y preciso de las palabras clave de voz.

¿Para qué sirve este conjunto de datos?


Los comandos de voz de Google se utilizan para:

  • Entrenamiento de modelos ligeros de reconocimiento de palabras clave
  • El desarrollo de interfaces de voz para dispositivos conectados (IoT, domótica)
  • Evaluación del desempeño en las tareas de detección de comandos
  • Análisis de señales de audio cortas y propiedades fonéticas

¿Se puede enriquecer o mejorar?


Sí, en particular mediante:

  • La adición de ruido de fondo real (voz, calle, naturaleza...) para probar la robustez
  • La creación de nuevos conjuntos de palabras clave específicas para una aplicación
  • Afinación con voces locales o en otros idiomas
  • Integración en arquitecturas en tiempo real (TinyML, IA en el dispositivo)

🔗 Fuente: Conjunto de datos de comandos de voz de Google

Preguntas frecuentes

¿Se puede usar este conjunto de datos para aplicaciones comerciales?

Sí, siempre y cuando cumplas con los términos de la licencia CC-BY 4.0, incluida la atribución correcta a Google.

¿Es multilingüe?

No, este conjunto de datos está principalmente en inglés. Se requieren otros proyectos para los modelos multilingües.

¿Se puede usar con modelos como Whisper, Wav2Vec o DeepSpeech?

Absolutamente. Este conjunto de datos es compatible con la mayoría de los marcos de reconocimiento de voz de código abierto y es ideal para tareas supervisadas de clasificación de audio.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.