Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Synthetic Clinical Notes Embedded
Texto

Synthetic Clinical Notes Embedded

Conjunto de datos médicos textuales masivos, estructurado en formato instrucción-respuesta con columnas enriquecidas con incrustaciones para cada ejemplo. Adecuado para la formación de maestría en medicina.

Obtén el dataset
Tamaño

158 000 ejemplos, formato Parquet con incrustaciones, 648 millones de fichas

Licencia

MIT

Descripción

Notas clínicas sintéticas incorporadas es un vasto conjunto de datos sintéticos de 158 000 ejemplos de notas clínicas simuladas, basado en fuentes como MIMIC III y PubMed Central. Los datos están estructurados en formato de instrucción/entrada/salida (tipo Alpaca) y se enriquecen con las incrustaciones generadas con el modelo BAAI/BGE-Small-en-v1.5. Es particularmente útil para la formación de modelos lingüísticos en el campo de la medicina.

¿Para qué sirve este conjunto de datos?

¿Se puede enriquecer o mejorar?

Sí, puede ampliarse con otros tipos de notas clínicas sintéticas, adaptarse a otros idiomas o integrar anotaciones adicionales (entidades médicas, categorías de ICD, temporalidad de los eventos). Las incrustaciones también se pueden recalcular con otros modelos, según sea necesario.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (Formato limpio, listo para NLP médico)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Ninguno – datos ya post-procesados)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐⭐ (Excelente – formato estructurado + embeddings + diversidad temática)
📜 Licencia comercial✅ Sí (MIT)
👨‍💻 Ideal para principiantes⚠️ Medio – buenas bases requeridas en NLP médico
🔁 Reutilizable para fine-tuning🩺 Excelente base para LLM de salud
🌍 Diversidad cultural⚠️ Solo en inglés, pero temáticas médicas variadas

🧠 Recomendado para

  • Investigadores médicos de PNL
  • Científicos de datos de salud
  • Proyectos de asistente clínico

🔧 Herramientas compatibles

  • Transformers Huggging Face
  • Cadena LANG
  • Transformadores de oración

💡 Consejo

Utilice incrustaciones precalculadas para explorar la diversidad semántica antes de realizar ajustes, o para crear motores de búsqueda clínicos inteligentes.

Preguntas frecuentes

¿Los datos provienen de pacientes reales?

No, se trata de notas clínicas sintéticas generadas a partir de datos públicos (PMC, MIMIC III) para evitar cualquier violación de la confidencialidad.

¿Se puede usar este conjunto de datos para entrenar modelos multilingües?

Actualmente solo en inglés, sin embargo, se puede traducir o enriquecer para fines multilingües mediante enfoques controlados.

¿Para qué se utilizan las incrustaciones integradas en el conjunto de datos?

Permiten el análisis semántico directo de las entradas/salidas y facilitan la integración en los sistemas de búsqueda o agrupamiento.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.