Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Synthetic Speech Commands
Audio

Synthetic Speech Commands

Un corpus de audio de código abierto de palabras aisladas, generado por síntesis de voz, diseñado para entrenar modelos de detección de comandos de voz.

Obtén el dataset
Tamaño

83.700 archivos WAV (1 s, mono, 16 kHz)

Licencia

CC BY-SA 4.0

Descripción

Este conjunto de datos contiene más de 83 000 archivos de audio generados mediante conversión de texto a voz que representan palabras sencillas (como «arriba», «abajo», «sí», «adelante»). Cada palabra se genera con variaciones en la voz, el tono, la velocidad y el ruido de fondo (por ejemplo, calle, tren o mar). Los archivos están en formato WAV, duran 1 segundo, en 16 kHz, en mono.

¿Para qué sirve este conjunto de datos?

  • Entrene modelos de detección de palabras clave
  • Pruebe la robustez de los modelos frente a diferentes tipos de ruido (ruido sintético, ambiental)
  • Cree asistentes de voz o interfaces controladas por voz (IoT, robótica)

¿Se puede enriquecer o mejorar?

Sí Es posible mezclar estos datos con registros reales para mejorar la solidez de los modelos. También se pueden agregar otras palabras a través de la misma canalización de TTS. Por último, una clasificación precisa por tipo de ruido o altavoz sintético podría enriquecer las anotaciones.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (Muy simple – datos de audio bien formateados)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Bajo – calidad de audio uniforme)
🏷️ Riqueza de anotaciones⭐⭐⭐✩✩ (Moderado – solo la palabra pronunciada)
📜 Licencia comercial✅ Sí (CC BY-SA 4.0)
👨‍💻 Ideal para principiantes🌟 Sí – perfecto para iniciarse en audio
🔁 Reutilizable para fine-tuning⚡ Muy útil para afinar un modelo ligero de reconocimiento de voz
🌍 Diversidad cultural⚠️ Limitado – solo voces sintéticas en inglés

🧠 Recomendado para

  • Principiantes en el procesamiento de audio
  • Creadores de asistentes de voz
  • Investigadores de robustez de TTS

🔧 Herramientas compatibles

  • TensorFlow
  • PyTorch
  • SpeechBrain
  • Torchaudio
  • Librosa

💡 Consejo

Para simular entornos realistas, combine este conjunto de datos con muestras de voz natural con las mismas palabras.

Preguntas frecuentes

¿Puede este conjunto de datos reemplazar las grabaciones de voz humana?

Puede complementar o aumentar un conjunto de datos real, pero sigue siendo sintético. Para una precisión óptima, se prefiere una combinación real/sintética.

¿Se incluye ruido de fondo en los archivos?

Sí, cada archivo es una combinación de voz sintética con ruido añadido (ambiental o generado) para simular condiciones reales.

¿Puedes añadir tus propias palabras a este conjunto de datos?

Sí, el código fuente proporcionado permite generar nuevas palabras sintéticas con diferentes parámetros vocales y acústicos.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.