En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
NIH Chest X-rays
Medical

NIH Chest X-rays

Le NIH Chest X-rays Dataset est l’un des jeux de données médicaux les plus utilisés dans le domaine de l’IA appliquée à la radiologie. Il contient plus de 100 000 radiographies thoraciques avec annotations automatiques couvrant 14 pathologies, dont la pneumonie, l’épanchement pleural, l’emphysème ou encore les nodules pulmonaires.

Télécharger le dataset
Taille

112,120 radiographies thoraciques de 30 805 patients, format PNG (à partir de DICOM)

Licence

Libre pour la recherche académique, sous conditions d’utilisation spécifiées par les National Institutes of Health (NIH). Les données sont anonymisées et accessibles publiquement

Description


Le dataset inclut :

  • 112 120 images issues de radiographies thoraciques postéro-antérieures
  • 14 étiquettes pathologiques par image (labels multiples possibles)
  • Des métadonnées associées : âge, sexe, ID patient, position du patient
  • Des annotations générées automatiquement à partir des rapports radiologiques
  • Des données issues du NIH Clinical Center

Bien que les annotations soient automatiques, le dataset reste une référence en vision médicale, souvent utilisée avec des modèles pré-entraînés ou pour du fine-tuning.

À quoi sert ce dataset ?


NIH Chest X-rays est utilisé pour :

  • L’entraînement de modèles de classification ou de localisation des pathologies pulmonaires
  • Le pré-entraînement de réseaux CNN pour la vision médicale (DenseNet, EfficientNet, etc.)
  • Le benchmarking de modèles de détection par IA dans le domaine hospitalier
  • Le développement de systèmes de tri automatisé ou d’alerte pré-diagnostic
  • La validation de modèles sur des cas cliniques variés, avec une base très large et représentative

Peut-on l’enrichir ou l’améliorer ?


Oui, notamment par :

  • L’ajout d’annotations manuelles validées par radiologues (ex. via CheXpert ou ChestX-ray14)
  • L’utilisation d’algorithmes de segmentation pour localiser les anomalies dans les poumons
  • Le croisement avec des bases cliniques (MIMIC-CXR) pour combiner images et texte
  • L’extension avec des modèles multi-vues (ajout de radiographies latérales ou CT)

🔗 Source : NIH Chest X-rays Dataset

Questions fréquemment posées

Les annotations sont-elles fiables pour un usage clinique ?

Les étiquettes ont été extraites automatiquement à partir de rapports. Elles sont utiles pour l’entraînement, mais une validation manuelle est conseillée pour les applications sensibles.

Les radiographies sont-elles en DICOM ?

Les fichiers disponibles sont au format PNG converti depuis DICOM. Certaines versions modifiées permettent d’accéder à la structure DICOM d’origine.

Existe-t-il des benchmarks associés ?

Oui, plusieurs travaux de recherche ont utilisé ce dataset pour établir des benchmarks en classification multi-label, localisation, et détection faible supervision.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.