Medical Speech Transcription and Intent Dataset
Conjunto de datos multimodal de más de 8 horas de declaraciones de audio junto con sus transcripciones de texto sobre síntomas médicos comunes, ideal para capacitar a los sistemas médicos de reconocimiento de voz.
Más de 8 horas de audio en archivos WAV, con las transcripciones asociadas en formato CSV y texto.
Licencia accesible a través de Figure Eight (Appen), uso bajo condiciones (ver descripción)
Descripción
El conjunto de datos Medical Speech Transcription and Intent Dataset contiene varios miles de extractos de audio que describen síntomas médicos comunes, junto con sus transcripciones de texto. Se recopiló a través de una plataforma colaborativa y contiene variaciones naturales en la pronunciación y la calidad.
¿Para qué sirve este conjunto de datos?
- Entrenamiento de modelos médicos de reconocimiento de voz
- Detectar intenciones y síntomas expresados oralmente
- Construyendo asistentes de voz especializados en salud
¿Se puede enriquecer o mejorar?
El conjunto de datos requiere una limpieza de las etiquetas y un control de calidad de los audios. Se puede enriquecer con anotaciones adicionales, como la identificación de los altavoces, el ruido de fondo o la segmentación precisa.
🔎 En resumen
🧠 Recomendado para
- Investigadores en ASR médica
- Desarrolladores de asistentes de voz para la salud
- Ingenieros de PNL
🔧 Herramientas compatibles
- Kaldi
- ESPnet
- Hugging Face Transformers
- Librosa
💡 Consejo
Realice una limpieza minuciosa de las etiquetas antes de la capacitación para mejorar el rendimiento.
Preguntas frecuentes
¿Este conjunto de datos incluye anotaciones de intención para las declaraciones médicas?
Sí, cada afirmación está asociada a una intención relacionada con un síntoma médico específico.
¿Cuál es la calidad de audio de los archivos incluidos?
La calidad del audio varía, algunos archivos son de mala calidad y es necesario limpiarlos.
¿Se puede usar este conjunto de datos para entrenar un modelo general de reconocimiento de voz?
Está orientado específicamente al campo de la medicina, pero se puede utilizar como base para una formación especializada.




