Radiografías de tórax del NIH
El conjunto de datos de radiografías de tórax de los NIH es uno de los conjuntos de datos médicos más utilizados en el campo de la IA aplicada a la radiología. Contiene más de 100 000 radiografías de tórax con anotaciones automáticas que abarcan 14 patologías, como la neumonía, el derrame pleural, el enfisema y los nódulos pulmonares.
112.120 radiografías de tórax de 30.805 pacientes, formato PNG (de DICOM)
Gratis para la investigación académica, según los términos de uso especificados por los Institutos Nacionales de Salud (NIH). Los datos son anónimos y de acceso público
Descripción
El conjunto de datos incluye:
- 112.120 imágenes de radiografías de tórax postero-anteriores
- 14 etiquetas patológicas por imagen (posibles múltiples etiquetas)
- Metadatos relacionados: edad, sexo, identificación del paciente, posición del paciente
- Anotaciones generadas automáticamente a partir de informes radiológicos
- Datos del Centro Clínico de los NIH
Si bien las anotaciones son automáticas, el conjunto de datos sigue siendo una referencia en la visión médica y, a menudo, se utiliza con modelos previamente entrenados o para realizar ajustes.
¿Para qué sirve este conjunto de datos?
Las radiografías de tórax de los NIH se utilizan para:
- Modelos de formación para la clasificación o localización de patologías pulmonares
- Redes de CNN de formación previa para la visión médica (DenseNet, EfficientNet, etc.)
- Evaluación comparativa de los modelos de detección de IA en el ámbito hospitalario
- El desarrollo de sistemas automatizados de clasificación o alerta previa al diagnóstico
- Validación de modelos en varios casos clínicos, con una base muy amplia y representativa
¿Se puede enriquecer o mejorar?
Sí, en particular mediante:
- La adición de anotaciones manuales validadas por radiólogos (por ejemplo, mediante CheXpert o ChestX-ray14)
- Uso de algoritmos de segmentación para localizar anomalías en los pulmones
- Cruce con bases de datos clínicas (MIMIC-CXR) para combinar imágenes y texto
- Ampliación con modelos multivista (adición de radiografías laterales o tomografía computarizada)
🔗 Fuente: Conjunto de datos de radiografías de tórax de los
Preguntas frecuentes
¿Son fiables las anotaciones para uso clínico?
Las etiquetas se extrajeron automáticamente de los informes. Son útiles para la formación, pero se recomienda la validación manual para aplicaciones delicadas.
¿Están las radiografías en DICOM?
Los archivos disponibles están en formato PNG convertidos desde DICOM. Algunas versiones modificadas permiten el acceso a la estructura DICOM original.
¿Hay puntos de referencia asociados?
Sí, varios estudios de investigación han utilizado este conjunto de datos para establecer puntos de referencia en la clasificación de etiquetas múltiples, la localización y la detección de baja supervisión.