Synthetic Clinical Notes Embedded
Conjunto de datos médicos textuales masivos, estructurado en formato instrucción-respuesta con columnas enriquecidas con incrustaciones para cada ejemplo. Adecuado para la formación de maestría en medicina.
158 000 ejemplos, formato Parquet con incrustaciones, 648 millones de fichas
MIT
Descripción
Notas clínicas sintéticas incorporadas es un vasto conjunto de datos sintéticos de 158 000 ejemplos de notas clínicas simuladas, basado en fuentes como MIMIC III y PubMed Central. Los datos están estructurados en formato de instrucción/entrada/salida (tipo Alpaca) y se enriquecen con las incrustaciones generadas con el modelo BAAI/BGE-Small-en-v1.5. Es particularmente útil para la formación de modelos lingüísticos en el campo de la medicina.
¿Para qué sirve este conjunto de datos?
- Perfeccionar los modelos lingüísticos para generar o comprender textos médicos
- Formación en tareas de extracción de información o correferenciación en las historias clínicas de los pacientes
- Uso directo para la investigación de incrustaciones clínicas
¿Se puede enriquecer o mejorar?
Sí, puede ampliarse con otros tipos de notas clínicas sintéticas, adaptarse a otros idiomas o integrar anotaciones adicionales (entidades médicas, categorías de ICD, temporalidad de los eventos). Las incrustaciones también se pueden recalcular con otros modelos, según sea necesario.
🔎 En resumen
🧠 Recomendado para
- Investigadores médicos de PNL
- Científicos de datos de salud
- Proyectos de asistente clínico
🔧 Herramientas compatibles
- Transformers Huggging Face
- Cadena LANG
- Transformadores de oración
💡 Consejo
Utilice incrustaciones precalculadas para explorar la diversidad semántica antes de realizar ajustes, o para crear motores de búsqueda clínicos inteligentes.
Preguntas frecuentes
¿Los datos provienen de pacientes reales?
No, se trata de notas clínicas sintéticas generadas a partir de datos públicos (PMC, MIMIC III) para evitar cualquier violación de la confidencialidad.
¿Se puede usar este conjunto de datos para entrenar modelos multilingües?
Actualmente solo en inglés, sin embargo, se puede traducir o enriquecer para fines multilingües mediante enfoques controlados.
¿Para qué se utilizan las incrustaciones integradas en el conjunto de datos?
Permiten el análisis semántico directo de las entradas/salidas y facilitan la integración en los sistemas de búsqueda o agrupamiento.