Synthetic Speech Commands

Un corpus de audio de código abierto de palabras aisladas, generado por síntesis de voz, diseñado para entrenar modelos de detección de comandos de voz.

Obtén el dataset

Tamaño

83.700 archivos WAV (1 s, mono, 16 kHz)

Licencia

CC BY-SA 4.0

Descripción

‍

Este conjunto de datos contiene más de 83 000 archivos de audio generados mediante conversión de texto a voz que representan palabras sencillas (como «arriba», «abajo», «sí», «adelante»). Cada palabra se genera con variaciones en la voz, el tono, la velocidad y el ruido de fondo (por ejemplo, calle, tren o mar). Los archivos están en formato WAV, duran 1 segundo, en 16 kHz, en mono.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene modelos de detección de palabras clave
Pruebe la robustez de los modelos frente a diferentes tipos de ruido (ruido sintético, ambiental)
Cree asistentes de voz o interfaces controladas por voz (IoT, robótica)

‍

¿Se puede enriquecer o mejorar?

‍

Sí Es posible mezclar estos datos con registros reales para mejorar la solidez de los modelos. También se pueden agregar otras palabras a través de la misma canalización de TTS. Por último, una clasificación precisa por tipo de ruido o altavoz sintético podría enriquecer las anotaciones.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Muy simple – datos de audio bien formateados)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Bajo – calidad de audio uniforme)
🏷️ Riqueza de anotaciones	⭐⭐⭐✩✩ (Moderado – solo la palabra pronunciada)
📜 Licencia comercial	✅ Sí (CC BY-SA 4.0)
👨‍💻 Ideal para principiantes	🌟 Sí – perfecto para iniciarse en audio
🔁 Reutilizable para fine-tuning	⚡ Muy útil para afinar un modelo ligero de reconocimiento de voz
🌍 Diversidad cultural	⚠️ Limitado – solo voces sintéticas en inglés

‍

🧠 Recomendado para

Principiantes en el procesamiento de audio
Creadores de asistentes de voz
Investigadores de robustez de TTS

‍

🔧 Herramientas compatibles

TensorFlow
PyTorch
SpeechBrain
Torchaudio
Librosa

‍

💡 Consejo

Para simular entornos realistas, combine este conjunto de datos con muestras de voz natural con las mismas palabras.

Preguntas frecuentes

¿Puede este conjunto de datos reemplazar las grabaciones de voz humana?

Puede complementar o aumentar un conjunto de datos real, pero sigue siendo sintético. Para una precisión óptima, se prefiere una combinación real/sintética.

¿Se incluye ruido de fondo en los archivos?

Sí, cada archivo es una combinación de voz sintética con ruido añadido (ambiental o generado) para simular condiciones reales.

¿Puedes añadir tus propias palabras a este conjunto de datos?

Sí, el código fuente proporcionado permite generar nuevas palabras sintéticas con diferentes parámetros vocales y acústicos.

Otros datasets

Imagen

Cityscapes Dataset

Texto

Conjunto de datos TREC-QA

Vídeo

UCF101