NIH Chest X-rays
Le NIH Chest X-rays Dataset est l’un des jeux de données médicaux les plus utilisés dans le domaine de l’IA appliquée à la radiologie. Il contient plus de 100 000 radiographies thoraciques avec annotations automatiques couvrant 14 pathologies, dont la pneumonie, l’épanchement pleural, l’emphysème ou encore les nodules pulmonaires.
112,120 radiographies thoraciques de 30 805 patients, format PNG (à partir de DICOM)
Libre pour la recherche académique, sous conditions d’utilisation spécifiées par les National Institutes of Health (NIH). Les données sont anonymisées et accessibles publiquement
Description
Le dataset inclut :
- 112 120 images issues de radiographies thoraciques postéro-antérieures
- 14 étiquettes pathologiques par image (labels multiples possibles)
- Des métadonnées associées : âge, sexe, ID patient, position du patient
- Des annotations générées automatiquement à partir des rapports radiologiques
- Des données issues du NIH Clinical Center
Bien que les annotations soient automatiques, le dataset reste une référence en vision médicale, souvent utilisée avec des modèles pré-entraînés ou pour du fine-tuning.
À quoi sert ce dataset ?
NIH Chest X-rays est utilisé pour :
- L’entraînement de modèles de classification ou de localisation des pathologies pulmonaires
- Le pré-entraînement de réseaux CNN pour la vision médicale (DenseNet, EfficientNet, etc.)
- Le benchmarking de modèles de détection par IA dans le domaine hospitalier
- Le développement de systèmes de tri automatisé ou d’alerte pré-diagnostic
- La validation de modèles sur des cas cliniques variés, avec une base très large et représentative
Peut-on l’enrichir ou l’améliorer ?
Oui, notamment par :
- L’ajout d’annotations manuelles validées par radiologues (ex. via CheXpert ou ChestX-ray14)
- L’utilisation d’algorithmes de segmentation pour localiser les anomalies dans les poumons
- Le croisement avec des bases cliniques (MIMIC-CXR) pour combiner images et texte
- L’extension avec des modèles multi-vues (ajout de radiographies latérales ou CT)
🔗 Source : NIH Chest X-rays Dataset
Questions fréquemment posées
Les annotations sont-elles fiables pour un usage clinique ?
Les étiquettes ont été extraites automatiquement à partir de rapports. Elles sont utiles pour l’entraînement, mais une validation manuelle est conseillée pour les applications sensibles.
Les radiographies sont-elles en DICOM ?
Les fichiers disponibles sont au format PNG converti depuis DICOM. Certaines versions modifiées permettent d’accéder à la structure DICOM d’origine.
Existe-t-il des benchmarks associés ?
Oui, plusieurs travaux de recherche ont utilisé ce dataset pour établir des benchmarks en classification multi-label, localisation, et détection faible supervision.