PubMedVision

PubMedVision est un dataset médical multimodal majeur regroupant plus d’un million d’exemples questions-réponses associées à des images médicales issues de PubMed. Les données sont enrichies par GPT-4V pour garantir leur qualité et formatage.

Télécharger le dataset

Taille

Environ 1,3 million de paires VQA médicales, 902 MB, format Parquet

Licence

Apache 2.0

Description

‍

Le dataset PubMedVision contient plus d’1,3 million d’exemples de Visual Question Answering (VQA) médical. Chaque exemple associe une image médicale à une question et sa réponse, permettant d’entraîner des modèles capables de comprendre et répondre à des questions complexes en imagerie médicale.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles d’IA pour VQA médical multimodal
Améliorer la compréhension des images médicales et leur interprétation contextuelle
Développer des assistants pour aider les professionnels de santé à analyser des images cliniques

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’ajouter des annotations spécifiques sur les pathologies ou modalités, d’intégrer des données complémentaires pour des sous-domaines médicaux, ou de renforcer les métadonnées sur les images.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐✩✩ (Dataset volumineux, nécessite des ressources conséquentes)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible – données reformatées et validées par GPT-4V)
🏷️ Richesse des annotations	⭐⭐⭐⭐⭐ (Questions et réponses contextuelles, annotations de corps et modalités)
📜 Licence commerciale	✅ Oui (Apache 2.0)
👨‍💻 Idéal pour les débutants	⚠️ Non – recommandé pour utilisateurs avancés
🔁 Réutilisable en fine-tuning	✅ Parfait pour VQA médical multimodal
🌍 Diversité culturelle	⚠️ Dataset spécialisé en imagerie médicale