NIH Chest X-rays

Le NIH Chest X-rays Dataset est l’un des jeux de données médicaux les plus utilisés dans le domaine de l’IA appliquée à la radiologie. Il contient plus de 100 000 radiographies thoraciques avec annotations automatiques couvrant 14 pathologies, dont la pneumonie, l’épanchement pleural, l’emphysème ou encore les nodules pulmonaires.

Télécharger le dataset

Taille

112,120 radiographies thoraciques de 30 805 patients, format PNG (à partir de DICOM)

Licence

Libre pour la recherche académique, sous conditions d’utilisation spécifiées par les National Institutes of Health (NIH). Les données sont anonymisées et accessibles publiquement

Description

‍
Le dataset inclut :

112 120 images issues de radiographies thoraciques postéro-antérieures
14 étiquettes pathologiques par image (labels multiples possibles)
Des métadonnées associées : âge, sexe, ID patient, position du patient
Des annotations générées automatiquement à partir des rapports radiologiques
Des données issues du NIH Clinical Center

‍

Bien que les annotations soient automatiques, le dataset reste une référence en vision médicale, souvent utilisée avec des modèles pré-entraînés ou pour du fine-tuning.

‍

À quoi sert ce dataset ?

‍
NIH Chest X-rays est utilisé pour :

L’entraînement de modèles de classification ou de localisation des pathologies pulmonaires
Le pré-entraînement de réseaux CNN pour la vision médicale (DenseNet, EfficientNet, etc.)
Le benchmarking de modèles de détection par IA dans le domaine hospitalier
Le développement de systèmes de tri automatisé ou d’alerte pré-diagnostic
La validation de modèles sur des cas cliniques variés, avec une base très large et représentative

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, notamment par :

L’ajout d’annotations manuelles validées par radiologues (ex. via CheXpert ou ChestX-ray14)
L’utilisation d’algorithmes de segmentation pour localiser les anomalies dans les poumons
Le croisement avec des bases cliniques (MIMIC-CXR) pour combiner images et texte
L’extension avec des modèles multi-vues (ajout de radiographies latérales ou CT)

‍

🔗 Source : NIH Chest X-rays Dataset

‍

Questions fréquemment posées

Les annotations sont-elles fiables pour un usage clinique ?

Les étiquettes ont été extraites automatiquement à partir de rapports. Elles sont utiles pour l’entraînement, mais une validation manuelle est conseillée pour les applications sensibles.

Les radiographies sont-elles en DICOM ?

Les fichiers disponibles sont au format PNG converti depuis DICOM. Certaines versions modifiées permettent d’accéder à la structure DICOM d’origine.

Existe-t-il des benchmarks associés ?

Oui, plusieurs travaux de recherche ont utilisé ce dataset pour établir des benchmarks en classification multi-label, localisation, et détection faible supervision.

Datasets similaires

Audio

UrbanSound8K

Texte

Fannie Mae Loan Performance Dataset

Multimodal

LibriSpeech