Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Medical Speech Transcription and Intent Dataset
Multimodal

Medical Speech Transcription and Intent Dataset

Conjunto de datos multimodal de más de 8 horas de declaraciones de audio junto con sus transcripciones de texto sobre síntomas médicos comunes, ideal para capacitar a los sistemas médicos de reconocimiento de voz.

Obtén el dataset
Tamaño

Más de 8 horas de audio en archivos WAV, con las transcripciones asociadas en formato CSV y texto.

Licencia

Licencia accesible a través de Figure Eight (Appen), uso bajo condiciones (ver descripción)

Descripción

El conjunto de datos Medical Speech Transcription and Intent Dataset contiene varios miles de extractos de audio que describen síntomas médicos comunes, junto con sus transcripciones de texto. Se recopiló a través de una plataforma colaborativa y contiene variaciones naturales en la pronunciación y la calidad.

¿Para qué sirve este conjunto de datos?

  • Entrenamiento de modelos médicos de reconocimiento de voz
  • Detectar intenciones y síntomas expresados oralmente
  • Construyendo asistentes de voz especializados en salud

¿Se puede enriquecer o mejorar?

El conjunto de datos requiere una limpieza de las etiquetas y un control de calidad de los audios. Se puede enriquecer con anotaciones adicionales, como la identificación de los altavoces, el ruido de fondo o la segmentación precisa.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐✩✩ (Requiere limpieza y preprocesamiento de audio)
🧼 Necesidad de limpieza⭐⭐✩✩✩ (Importante: calidad variable, etiquetas a veces incorrectas)
🏷️ Riqueza de anotaciones⭐⭐⭐✩✩ (Moderado: transcripciones e intenciones, pocas metadatos avanzadas)
📜 Licencia comercial⚖️ Uso bajo condiciones (Figure Eight/Appen)
👨‍💻 Ideal para principiantes⚠️ Moderado, mejor con experiencia en audio
🔁 Reutilizable para fine-tuning🎯 Sí, para ASR y NLP médico
🌍 Diversidad cultural⚠️ No especificado, probablemente limitado

🧠 Recomendado para

  • Investigadores en ASR médica
  • Desarrolladores de asistentes de voz para la salud
  • Ingenieros de PNL

🔧 Herramientas compatibles

  • Kaldi
  • ESPnet
  • Hugging Face Transformers
  • Librosa

💡 Consejo

Realice una limpieza minuciosa de las etiquetas antes de la capacitación para mejorar el rendimiento.

Preguntas frecuentes

¿Este conjunto de datos incluye anotaciones de intención para las declaraciones médicas?

Sí, cada afirmación está asociada a una intención relacionada con un síntoma médico específico.

¿Cuál es la calidad de audio de los archivos incluidos?

La calidad del audio varía, algunos archivos son de mala calidad y es necesario limpiarlos.

¿Se puede usar este conjunto de datos para entrenar un modelo general de reconocimiento de voz?

Está orientado específicamente al campo de la medicina, pero se puede utilizar como base para una formación especializada.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.