En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Synthetic Clinical Notes Embedded
Texte

Synthetic Clinical Notes Embedded

Dataset médical textuel massif, structuré au format instruction-réponse avec colonnes enrichies par embeddings pour chaque exemple. Adapté à l’entraînement de LLM médicaux.

Télécharger le dataset
Taille

158 000 exemples, format Parquet avec embeddings, 648M tokens

Licence

MIT

Description

Synthetic Clinical Notes Embedded est un vaste dataset synthétique de 158 000 exemples issus de notes cliniques simulées, basées sur des sources telles que MIMIC III et PubMed Central. Les données sont structurées au format instruction / input / output (type Alpaca) et enrichies par des embeddings générés avec le modèle BAAI/bge-small-en-v1.5. Il est particulièrement utile pour entraîner des modèles de langage dans le domaine médical.

À quoi sert ce dataset ?

Peut-on l’enrichir ou l’améliorer ?

Oui, on peut l’augmenter avec d'autres types de notes cliniques synthétiques, l’adapter à d'autres langues, ou intégrer des annotations supplémentaires (entités médicales, catégories ICD, temporalité des événements). Les embeddings peuvent aussi être recalculés avec d'autres modèles selon les besoins.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Format propre, prêt à l’emploi pour NLP médical)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Aucun – données déjà post-traitées)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Excellente : format structuré + embeddings + diversité thématique)
📜 Licence commerciale✅ Oui (MIT)
👨‍💻 Idéal pour les débutants⚠️ Moyennement – bonnes bases requises en NLP médical
🔁 Réutilisable en fine-tuning🩺 Excellente base pour LLM santé
🌍 Diversité culturelle⚠️ Anglais uniquement, mais thématiques médicales variées

🧠 Recommandé pour

  • Chercheurs en NLP médical
  • Data scientists travaillant dans le domaine de la santé
  • Projets d’assistants cliniques assistés par l'IA

🔧 Outils compatibles

  • Hugging Face Transformers
  • LangChain
  • SentenceTransformers

💡 Astuce

Utilisez les embeddings pré-calculés pour explorer la diversité sémantique avant tout fine-tuning, ou pour créer des moteurs de recherche cliniques intelligents.

Questions fréquemment posées

Les données sont-elles issues de vrais patients ?

Non, il s’agit de notes cliniques synthétiques générées à partir de données publiques (PMC, MIMIC III) pour éviter toute violation de confidentialité.

Ce dataset peut-il servir à l’entraînement de modèles multilingues ?

Actuellement en anglais uniquement, il peut cependant être traduit ou enrichi pour le multilingue via des approches contrôlées.

À quoi servent les embeddings intégrés dans le dataset ?

Ils permettent une analyse sémantique directe des entrées/sorties, et facilitent l’intégration dans des systèmes de recherche ou de clustering.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.