Datos deficientes: un obstáculo importante en el aprendizaje automático


🔍 A medida que las aplicaciones empresariales de la inteligencia artificial y el aprendizaje automático se multiplican y transforman rápidamente varios sectores, queda una verdad: La calidad de los datos es el pilar en el que se basan estos avances tecnológicos.
El aprendizaje automático (ML) se ha vuelto esencial en muchos sectores y ha permitido crear varios productos de IA en los últimos años. El enfoque dominante se centra en los datos, y para que los modelos de aprendizaje automático aporten realmente valor a una empresa, la calidad de los datos utilizados es de fundamental importancia. En este artículo, analizamos por qué la calidad de los datos es fundamental y por qué la preparación minuciosa y minuciosa de los datos es la base de la gran mayoría de los productos de IA.
¿Por qué la calidad de los datos es la columna vertebral de sus proyectos de IA?
Los algoritmos de aprendizaje automático utilizan datos para aprender y hacer predicciones. Sin embargo, no todos los datos tienen el mismo valor. La calidad de los datos es un factor determinante importante de la precisión y confiabilidad de los modelos de aprendizaje automático.
Los profesionales que trabajan en proyectos de aprendizaje automático (científicos de datos, desarrolladores, etiquetadores de datos, etc.) conocen bien los desafíos. Muchos proyectos parecen estancarse durante las fases de prueba, antes de la implementación, principalmente debido a la falta de calidad en la anotación de los datos escalados. Los errores humanos, las hipótesis poco claras, el aspecto subjetivo y ambiguo de la tarea de anotación y, especialmente, la falta de supervisión y consideración del trabajo realizado por los etiquetadores de datos suelen contribuir a estos problemas.
Datos anotados en masa pero de forma aproximada... ¡un desastre!
La inexactitud de los datos puede ser el resultado de errores humanos, técnicas de recopilación de datos defectuosas o problemas con la fuente de datos. Cuando un modelo de aprendizaje automático se entrena con datos incorrectos, puede tomar malas decisiones.
Algunos ejemplos para ilustrar los impactos de los modelos entrenados con datos imperfectos en productos y casos de uso:
1. Diagnóstico médico incorrecto
Imagine un sistema de inteligencia artificial para ayudar a los médicos a diagnosticar enfermedades. Si este sistema se basa en datos médicos incorrectos o incompletos, podría dar lugar a diagnósticos erróneos y poner en riesgo la vida de los pacientes. Esta situación pone de relieve la necesidad imperiosa de disponer de datos médicos precisos y completos para garantizar la fiabilidad de los sistemas de IA en la medicina. Para evitarlo y permitir el desarrollo de productos de IA médica eficientes y la formación de cirujanos en todo el mundo, el colectivo SDSC está trabajando en una base de datos médica anotada para la IA.
2. Errores de traducción automática
Los sistemas de traducción automática utilizan modelos de aprendizaje automático para traducir textos. Si los datos de formación contienen errores o traducciones incorrectas, los resultados de la traducción automática pueden ser inexactos, lo que puede provocar malentendidos y problemas de comunicación.
3. Falsos positivos en seguridad informática
En el campo de la seguridad informática, los sistemas de detección de intrusiones y actividades maliciosas se basan en modelos de aprendizaje automático. Si los datos utilizados para entrenar estos modelos contienen ejemplos incorrectos o mal etiquetados, esto puede dar lugar a falsos positivos, lo que significa que las acciones legítimas se marcan falsamente como amenazas, lo que provoca una reacción innecesaria y una pérdida de tiempo para las actividades de vigilancia de amenazas (SOC), contaminadas por falsas alarmas.
4. Sistemas imperfectos de recomendación de películas
Imagina un sistema de recomendación de películas. Imagine que este sistema, basado en el aprendizaje automático, recomienda películas a los usuarios en función de sus preferencias anteriores. Sin embargo, el modelo se apodera de un sesgo insidioso, que hace que se recomiende a los usuarios principalmente películas de un género específico, como la acción, en detrimento de otros géneros como la comedia o el drama.
El conjunto de datos utilizado para formar el modelo estaba desequilibrado, con una sobrerrepresentación masiva de películas de acción, mientras que otros géneros estaban infrarrepresentados. De este modo, el modelo ha aprendido a favorecer las películas de acción, descuidando las variadas preferencias de los usuarios. Este ejemplo destaca la importancia de contar con datos de capacitación equilibrados y representativos para garantizar recomendaciones precisas y relevantes.
5. Fallo en el sistema de frenado de emergencia del vehículo
Imagine una situación en la que un fabricante de automóviles establece un sistema de frenado de emergencia automatizado, diseñado para detectar obstáculos y detener el automóvil en caso de peligro inminente. Este sistema se basa en sensores, cámaras y datos cartográficos para funcionar correctamente.
Durante las pruebas iniciales en carretera, el sistema de frenado de emergencia no responde adecuadamente a los peatones y a los obstáculos. Frena bruscamente sin ningún motivo, mientras que en otros no reacciona en absoluto ante los objetos en movimiento. Estas averías se deben a datos erróneos de los sensores y a inconsistencias en los datos cartográficos utilizados para formar el modelo del sistema.
Resulta que los datos recopilados para la formación del modelo de frenado de emergencia eran incompletos e inexactos. Los escenarios de prueba no cubrieron suficientes situaciones del mundo real, por lo que el sistema no estaba preparado para responder adecuadamente en una situación de emergencia.
Este ejemplo destaca que, incluso en un sector como la industria automotriz, donde la seguridad es primordial, la calidad de los datos utilizados para formar sistemas autónomos es crucial. Los datos incorrectos o incompletos pueden poner en peligro la vida de los conductores, pasajeros y peatones, lo que pone de relieve la importancia del rigor en la recopilación y validación de los datos para garantizar la fiabilidad de los sistemas de conducción autónoma.
Para mitigar el impacto de los datos inexactos, es esencial validarlos cuidadosamente antes de usarlos. Los anotadores deben estar capacitados en la tarea, en el uso del software de anotación (LabelBox, Encord, V7 Labs, Label Studio, CVAT, etc.) y con la precisión requerida. Las directrices claras y los datos de muestra anotados pueden garantizar la coherencia y precisión de los datos.
La trampa de los datos poco representativos
Los datos no representativos pueden sesgar los modelos de aprendizaje automático. Numerosos ejemplos en el campo de la facilidad de reconocimiento han aparecido en los titulares. Algunos ejemplos son los sesgos en la calidad de los datos relacionados con los sistemas de reconocimiento facial, que se utilizan cada vez más para la autenticación, la seguridad y otras aplicaciones. Sin embargo, varios sistemas de reconocimiento facial han mostrado patrones de sesgo racial y étnico debido al desequilibrio de los datos de entrenamiento.
Tomemos el caso de un sistema de reconocimiento facial utilizado por los organismos encargados de hacer cumplir la ley para identificar a los sospechosos. Si los datos de entrenamiento se componen principalmente de rostros de una sola etnia, el sistema puede tener problemas para identificar correctamente los rostros de otros grupos étnicos. Esto puede llevar a una identificación errónea, a arrestos injustos y a la perpetuación de estereotipos discriminatorios.
Este ejemplo pone de relieve la necesidad de disponer de datos de formación diversos y representativos para garantizar que los sistemas de reconocimiento facial no favorezcan a un grupo étnico frente a otro, y para evitar las consecuencias perjudiciales de la discriminación y la justicia sesgada. Además, según el caso de uso, será beneficioso que estos datos los preparen grupos de anotadores con perfiles variados.
En conclusión...
La calidad de los datos es un pilar esencial para el éxito de sus proyectos de IA. Los errores de anotación, los datos sesgados y la falta de información pueden poner en riesgo la confiabilidad de los modelos de aprendizaje automático. Al seguir las mejores prácticas, como la formación de los anotadores de imágenes, videos además del texto, la validación de datos y la supervisión continua, los científicos de datos y otros desarrolladores de IA pueden maximizar el valor de sus iniciativas de aprendizaje automático y evitar muchos de los obstáculos asociados con la preparación de datos.