Medical Speech Transcription and Intent Dataset

Conjunto de datos multimodal de más de 8 horas de declaraciones de audio junto con sus transcripciones de texto sobre síntomas médicos comunes, ideal para capacitar a los sistemas médicos de reconocimiento de voz.

Obtén el dataset

Tamaño

Más de 8 horas de audio en archivos WAV, con las transcripciones asociadas en formato CSV y texto.

Licencia

Licencia accesible a través de Figure Eight (Appen), uso bajo condiciones (ver descripción)

Descripción

‍

El conjunto de datos Medical Speech Transcription and Intent Dataset contiene varios miles de extractos de audio que describen síntomas médicos comunes, junto con sus transcripciones de texto. Se recopiló a través de una plataforma colaborativa y contiene variaciones naturales en la pronunciación y la calidad.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrenamiento de modelos médicos de reconocimiento de voz
Detectar intenciones y síntomas expresados oralmente
Construyendo asistentes de voz especializados en salud

‍

¿Se puede enriquecer o mejorar?

‍

El conjunto de datos requiere una limpieza de las etiquetas y un control de calidad de los audios. Se puede enriquecer con anotaciones adicionales, como la identificación de los altavoces, el ruido de fondo o la segmentación precisa.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐✩✩ (Requiere limpieza y preprocesamiento de audio)
🧼 Necesidad de limpieza	⭐⭐✩✩✩ (Importante: calidad variable, etiquetas a veces incorrectas)
🏷️ Riqueza de anotaciones	⭐⭐⭐✩✩ (Moderado: transcripciones e intenciones, pocas metadatos avanzadas)
📜 Licencia comercial	⚖️ Uso bajo condiciones (Figure Eight/Appen)
👨‍💻 Ideal para principiantes	⚠️ Moderado, mejor con experiencia en audio
🔁 Reutilizable para fine-tuning	🎯 Sí, para ASR y NLP médico
🌍 Diversidad cultural	⚠️ No especificado, probablemente limitado

‍

🧠 Recomendado para

Investigadores en ASR médica
Desarrolladores de asistentes de voz para la salud
Ingenieros de PNL

‍

🔧 Herramientas compatibles

Kaldi
ESPnet
Hugging Face Transformers
Librosa

‍

💡 Consejo

Realice una limpieza minuciosa de las etiquetas antes de la capacitación para mejorar el rendimiento.

Preguntas frecuentes

¿Este conjunto de datos incluye anotaciones de intención para las declaraciones médicas?

Sí, cada afirmación está asociada a una intención relacionada con un síntoma médico específico.

¿Cuál es la calidad de audio de los archivos incluidos?

La calidad del audio varía, algunos archivos son de mala calidad y es necesario limpiarlos.

¿Se puede usar este conjunto de datos para entrenar un modelo general de reconocimiento de voz?

Está orientado específicamente al campo de la medicina, pero se puede utilizar como base para una formación especializada.

Otros datasets

Multimodal

VLMS Are Blind

Texto

Titanium 2.1: conjunto de datos de DevOps y arquitectura de modelos LLM

Imagen

ImageNet