Medical Instruction 100K

Ce dataset libre regroupe des dialogues entre humains et modèles IA dans un cadre médical. Il couvre prescriptions, traitements naturels, médicaments et conseils bien-être.

Télécharger le dataset

Taille

Environ 100 000 exemples en JSONL

Licence

MIT

Description

‍

Medical Instruction 100K est un corpus de données textuelles destiné à l’entraînement de modèles de langage dans des contextes médicaux. Il compile environ 100 000 exemples de dialogues contenant des instructions et des réponses liées à la santé : noms de médicaments, conseils de respiration, exercices yogiques ou remèdes naturels.

‍

À quoi sert ce dataset ?

‍

Former des modèles LLM spécialisés dans l'assistance médicale textuelle
Simuler des dialogues entre patients et praticiens ou coachs bien-être
Tester la compréhension médicale des modèles génératifs sur des scénarios variés

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. Ce dataset peut être amélioré en ajoutant des annotations (niveaux de risque, catégories de pathologies, langues), en le traduisant ou en l’adaptant à des cas d’usage locaux (médecine traditionnelle, nutrition locale, etc.). Il peut aussi être utilisé comme base pour des projets RLHF ou instruct-tuning dans un cadre médical.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐⭐ (Format JSONL, facile à charger)
🧼 Besoin de nettoyage	⭐⭐⭐⭐✩ (Léger – Vérifier les doublons et la cohérence)
🏷️ Richesse des annotations	⭐⭐✩✩✩ (Faible – Pas d’annotations structurées)
📜 Licence commerciale	✅ Oui (MIT)
👨‍💻 Idéal pour les débutants	✅ Oui – Simple à exploiter avec peu de ressources
🔁 Réutilisable en fine-tuning	🩺 Très adapté aux modèles spécialisés santé
🌍 Diversité culturelle	⚠️ Moyenne – Vocabulaire surtout en anglais, avec éléments naturels/globaux