Medical Instruction 100K

Este conjunto de datos gratuito reúne los diálogos entre humanos y modelos de IA en un entorno médico. Abarca las recetas, los tratamientos naturales, los medicamentos y los consejos de bienestar.

Obtén el dataset

Tamaño

Alrededor de 100000 ejemplos en JSONL

Licencia

MIT

Descripción

‍

Instrucción médica 100K es un corpus de datos textuales destinado a la formación de modelos lingüísticos en contextos médicos. Recopila alrededor de 100 000 ejemplos de diálogos que contienen instrucciones y respuestas relacionadas con la salud: nombres de medicamentos, consejos de respiración, ejercicios yóguicos o remedios naturales.

‍

¿Para qué sirve este conjunto de datos?

‍

Forme modelos de LLM especializados en asistencia médica basada en textos
Simule diálogos entre pacientes y profesionales del bienestar o entrenadores
Probar la comprensión médica de los modelos generativos en varios escenarios

‍

¿Se puede enriquecer o mejorar?

‍

Sí. Este conjunto de datos se puede mejorar añadiendo anotaciones (niveles de riesgo, categorías de enfermedades, idiomas), traduciéndolo o adaptándolo a los casos de uso locales (medicina tradicional, nutrición local, etc.). También se puede utilizar como base para proyectos de RLHF o de ajuste de instrucciones en un entorno médico.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Formato JSONL, fácil de cargar)
🧼 Necesidad de limpieza	⭐⭐⭐⭐✩ (Ligero – verificar duplicados y coherencia)
🏷️ Riqueza de anotaciones	⭐⭐✩✩✩ (Bajo – sin anotaciones estructuradas)
📜 Licencia comercial	✅ Sí (MIT)
👨‍💻 Ideal para principiantes	✅ Sí – fácil de explotar con pocos recursos
🔁 Reutilizable para fine-tuning	🩺 Muy adecuado para modelos especializados en salud
🌍 Diversidad cultural	⚠️ Media – vocabulario sobre todo en inglés, con elementos naturales/globales