Medical Instruction 100K
Este conjunto de datos gratuito reúne los diálogos entre humanos y modelos de IA en un entorno médico. Abarca las recetas, los tratamientos naturales, los medicamentos y los consejos de bienestar.
Descripción
Instrucción médica 100K es un corpus de datos textuales destinado a la formación de modelos lingüísticos en contextos médicos. Recopila alrededor de 100 000 ejemplos de diálogos que contienen instrucciones y respuestas relacionadas con la salud: nombres de medicamentos, consejos de respiración, ejercicios yóguicos o remedios naturales.
¿Para qué sirve este conjunto de datos?
- Forme modelos de LLM especializados en asistencia médica basada en textos
- Simule diálogos entre pacientes y profesionales del bienestar o entrenadores
- Probar la comprensión médica de los modelos generativos en varios escenarios
¿Se puede enriquecer o mejorar?
Sí. Este conjunto de datos se puede mejorar añadiendo anotaciones (niveles de riesgo, categorías de enfermedades, idiomas), traduciéndolo o adaptándolo a los casos de uso locales (medicina tradicional, nutrición local, etc.). También se puede utilizar como base para proyectos de RLHF o de ajuste de instrucciones en un entorno médico.
🔎 En resumen
🧠 Recomendado para
- Creadores de chatbots de salud
- Proyectos de coaching de bienestar
- LLMs especializados
🔧 Herramientas compatibles
- Transformers Huggging Face
- QLora
- PyTorch
- VOLM
💡 Consejo
Para obtener un mejor impacto, haga una referencia cruzada de este conjunto de datos con fuentes multilingües o validadas clínicamente.
Preguntas frecuentes
¿Se puede utilizar este conjunto de datos en aplicaciones clínicas?
No, está diseñado para usos exploratorios o de asistencia. Cualquier aplicación clínica requiere la validación por parte de expertos médicos.
¿Es posible filtrar el conjunto de datos por tipo de contenido?
Actualmente no, pero puedes añadir filtros temáticos (farmacología, bienestar...) anotando manualmente los ejemplos.
¿Este conjunto de datos contiene fuentes multilingües?
No, la mayoría de los datos están en inglés. Se recomienda una traducción controlada para uso multilingüe.