Synthetic Clinical Notes Embedded

Conjunto de datos médicos textuales masivos, estructurado en formato instrucción-respuesta con columnas enriquecidas con incrustaciones para cada ejemplo. Adecuado para la formación de maestría en medicina.

Obtén el dataset

Tamaño

158 000 ejemplos, formato Parquet con incrustaciones, 648 millones de fichas

Licencia

MIT

Descripción

‍

Notas clínicas sintéticas incorporadas es un vasto conjunto de datos sintéticos de 158 000 ejemplos de notas clínicas simuladas, basado en fuentes como MIMIC III y PubMed Central. Los datos están estructurados en formato de instrucción/entrada/salida (tipo Alpaca) y se enriquecen con las incrustaciones generadas con el modelo BAAI/BGE-Small-en-v1.5. Es particularmente útil para la formación de modelos lingüísticos en el campo de la medicina.

‍

¿Para qué sirve este conjunto de datos?

‍

Perfeccionar los modelos lingüísticos para generar o comprender textos médicos
Formación en tareas de extracción de información o correferenciación en las historias clínicas de los pacientes
Uso directo para la investigación de incrustaciones clínicas

‍

¿Se puede enriquecer o mejorar?

‍

Sí, puede ampliarse con otros tipos de notas clínicas sintéticas, adaptarse a otros idiomas o integrar anotaciones adicionales (entidades médicas, categorías de ICD, temporalidad de los eventos). Las incrustaciones también se pueden recalcular con otros modelos, según sea necesario.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Formato limpio, listo para NLP médico)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Ninguno – datos ya post-procesados)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Excelente – formato estructurado + embeddings + diversidad temática)
📜 Licencia comercial	✅ Sí (MIT)
👨‍💻 Ideal para principiantes	⚠️ Medio – buenas bases requeridas en NLP médico
🔁 Reutilizable para fine-tuning	🩺 Excelente base para LLM de salud
🌍 Diversidad cultural	⚠️ Solo en inglés, pero temáticas médicas variadas

‍

🧠 Recomendado para

Investigadores médicos de PNL
Científicos de datos de salud
Proyectos de asistente clínico

‍

🔧 Herramientas compatibles

Transformers Huggging Face
Cadena LANG
Transformadores de oración

‍

💡 Consejo

Utilice incrustaciones precalculadas para explorar la diversidad semántica antes de realizar ajustes, o para crear motores de búsqueda clínicos inteligentes.

Preguntas frecuentes

¿Los datos provienen de pacientes reales?

No, se trata de notas clínicas sintéticas generadas a partir de datos públicos (PMC, MIMIC III) para evitar cualquier violación de la confidencialidad.

¿Se puede usar este conjunto de datos para entrenar modelos multilingües?

Actualmente solo en inglés, sin embargo, se puede traducir o enriquecer para fines multilingües mediante enfoques controlados.

¿Para qué se utilizan las incrustaciones integradas en el conjunto de datos?

Permiten el análisis semántico directo de las entradas/salidas y facilitan la integración en los sistemas de búsqueda o agrupamiento.

Otros datasets

Imagen

Tennis Player Actions Dataset

Audio

GigaSpeech

Texto

Clothing Fit Dataset for Size Recommendation