Cómo llevar a cabo su campaña de anotación de datos: la guía (1/2)


🧐 ¿Por qué anotar imágenes, vídeos, textos,... qué importancia tiene la IA?
Para analizar el contenido de sus datos, entrenar algoritmos supervisados y tener éxito en su proyecto de inteligencia artificial, el uso de datos «estructurados» o «anotados» es esencial.
Si los datos ya están estructurados, significa que se han organizado previamente para poder representarlos en forma de tabla, con filas correspondientes a las observaciones y columnas correspondientes a las variables. Al integrar un proceso de estructuración inicial, se beneficia de un importante ahorro de tiempo y es probable que no necesite una fase de anotación, ya que los datos ya están estructurados.
Por otro lado, si sus datos son «desestructurados», lo que significa que no pueden describirse mediante un modelo predefinido, no están categorizados y pueden ser muy diversos (imágenes, texto, vídeos, etc.), es muy probable que necesite anotar estos datos. La naturaleza desestructurada de estos datos hace que sea mucho más complejo explotarlos mediante algoritmos de inteligencia artificial. En este caso, se hace necesaria la organización de una fase de anotación.
La fase de anotación, que consiste en asignar una o más etiquetas a los elementos de un conjunto de datos, permite crear un conjunto de datos estructurado, lo que permite entrenar algoritmos supervisados.
💡 Anotación que consiste en asignar a cada dato la etiqueta que mejor se adapte a él. Por ejemplo, esto puede consistir en asignar etiquetas como «perro» o «gato» a una colección de fotografías de animales, o en seleccionar etiquetas apropiadas como «ciudad», «tipo de vivienda» o «precio ofrecido para la compra» en una serie de anuncios inmobiliarios.
La calidad de su solución de IA, en términos de relevancia y rendimiento, dependerá en gran medida de la calidad de los datos, de los que la precisión de las etiquetas es un aspecto importante, aunque también pueden influir otros aspectos cualitativos (como la integridad de las variables explicativas, la detección de valores atípicos, etc.). Por lo tanto, es esencial que la fase de anotación se lleve a cabo prestando especial atención a la obtención de etiquetas de alta calidad. Esta guía describe los pasos clave y algunas de las mejores prácticas para garantizar este objetivo.
¿Cómo preparar su campaña de anotación de datos? Empezando por la identificación de las partes interesadas
La realización de una campaña de anotación de texto, imagen o vídeo requiere un equipo especializado, que incluya anotadores (o etiquetadores de datos), un director de proyecto, un científico de datos y, posiblemente, un administrador de la plataforma de anotación (solución de etiquetado como Label Studio o CVAT).
A continuación se muestra un breve resumen de los diferentes perfiles que participan en las campañas de anotación para la IA:
El director del proyecto (experto empresarial)
El director del proyecto, un experto en negocios, desempeña un papel esencial en la planificación y el seguimiento del proceso de anotación. Sus responsabilidades incluyen la implementación del diagrama de anotaciones y el manual correspondiente, la formación de los anotadores, la estimación del tiempo necesario para las diversas tareas de anotación, el establecimiento de un plan de anotación y el seguimiento cualitativo y cuantitativo del proyecto.
El científico de datos (experto técnico)
El científico de datos utiliza herramientas y métodos para evaluar el progreso y la calidad de las anotaciones, de acuerdo con las necesidades de un modelo de IA. También puede realizar anotaciones previas en los documentos, priorizar las anotaciones e implementar métodos de TI para acelerar el proceso de anotación. Antes de realizar la anotación, el científico de datos puede definir una estrategia de conservación de datos, realizando un trabajo inicial con los datos sin procesar para eliminar el ruido (por ejemplo: marcos no se puede reproducir en un conjunto de vídeos).
El administrador de la plataforma de anotación
El administrador de la plataforma es responsable de instalar el software de anotación, administrar las cuentas de usuario, proporcionar documentos y preparar los entornos de etiquetado, y guardar las anotaciones con regularidad para evitar la pérdida de datos. También garantiza la relevancia de la solución y lleva a cabo todas las pruebas técnicas necesarias para utilizar los datos y los metadatos producidos (por ejemplo, si es posible extraer datos completos en formato JSON con un nivel de rendimiento adecuado).
Anotadores de datos
El perfil de los anotadores varía en función de la tarea de anotación. Algunos casos simplemente requieren dominio de un idioma como el inglés o el francés, mientras que otros requieren una experiencia específica (por ejemplo: conocimientos de anatomía, experiencia específica en el campo del deporte, etc.). Los anotadores son responsables de comprender la tarea, anotar los documentos e informar al director de la campaña sobre las preguntas o dificultades a medida que vayan anotando.
Definir un problema
El proceso de anotación, que suele ser una fase preliminar de un proyecto de IA más grande, requiere una reflexión exhaustiva sobre el problema del proyecto antes de su inicio real. Esta precaución garantiza que las anotaciones realizadas contribuyan eficazmente a resolver el problema específico del proyecto.
El proceso de anotación puede variar según la aplicación prevista y la naturaleza del problema elegido. Por lo tanto, es imprescindible responder a una serie de preguntas esenciales:
• ¿Qué problema trata de resolver el proyecto?
• ¿Cuál es el contexto general del proyecto y qué misión de servicio público apoya?
• ¿Cuáles son los objetivos estratégicos del proyecto y cómo se alinean con los objetivos de la organización?
• ¿Cuáles son los objetivos operativos del proyecto?
• ¿Cuáles son los impactos esperados de la solución en la organización del servicio, tanto desde el punto de vista de los funcionarios públicos como de los usuarios?
• ¿Hay proyectos similares que podrían ser beneficiosos para explorar?
• ¿Cuál es el alcance de la solución que se está considerando y cómo afecta esto al campo de datos que se va a anotar?
Desarrollar un esquema de anotación de datos
El esquema de anotaciones es una plantilla que te permite describir las anotaciones de tu proyecto. Debe provenir del problema definido anteriormente. Concretamente, consiste al menos en un conjunto de etiquetas (es decir, términos que permiten caracterizar tal o cual información en un documento) y en una definición precisa de estas diversas etiquetas. En algunos proyectos, el esquema de anotación también se puede definir mediante una jerarquía entre etiquetas o mediante relaciones entre términos. De hecho, todas las etiquetas se pueden jerarquizar entre ellas. El esquema de anotación a veces se completa con la tarea de identificar las relaciones entre las entidades anotadas (por ejemplo, una tarea de anotación puede consistir en relacionar un pronombre con el sustantivo al que se refiere).
El problema empresarial al que responde el proyecto suele ser complejo, con muchos casos especiales o excepciones a las reglas habituales. Establecer un esquema de anotación a menudo implica un trabajo de simplificación (que también se traduce en una pérdida de información o precisión). Sin embargo, es importante no simplificar al extremo y, por lo tanto, encontrar un buen equilibrio entre la simplicidad y la adecuación al problema empresarial. Para encontrar este equilibrio, un proceso iterativo es generalmente el mejor método a adoptar. Si el propósito de la anotación es entrenar un algoritmo de inteligencia artificial, no es necesario excluir características o instrucciones específicas que serían demasiado difíciles de reproducir con una solución automática.
Desarrollar y actualizar la documentación para la campaña de anotaciones
La documentación es un elemento fundamental y debe evolucionar de forma dinámica a lo largo de la campaña de anotación. Al registrar metódicamente las medidas adoptadas y enumerar los desafíos encontrados, la documentación demuestra ser una herramienta valiosa para garantizar la uniformidad de la información dentro del equipo del proyecto. También desempeña un papel beneficioso al compartir las lecciones aprendidas con otros proyectos similares.
Son esenciales varios tipos de documentación, cada uno dirigido a funciones específicas dentro del proyecto: documentación general, documentación para anotadores y documentación diseñada específicamente para el administrador de la plataforma de anotaciones.
Guía para anotadores
La documentación para los anotadores es de suma importancia como material de formación. Debe incluir elementos como la descripción detallada del proyecto para ofrecer una visión clara de la aplicación prevista, la jerarquía sintética de las anotaciones, si procede, y explicaciones precisas de las distintas etiquetas, incluidas las opciones metodológicas y la lógica subyacente a la anotación. Las instrucciones sobre cómo usar el software de anotación, los ejemplos concretos de casos específicos y una sección de preguntas y respuestas ayudan a facilitar el proceso de anotación.
Guía para el administrador de la plataforma de anotación (V7 Labs, Encord o CVAT)
Documentar cómo funciona la plataforma de anotación es igual de importante. Una guía específica para el administrador de la plataforma debería explicar cómo crear cuentas para los anotadores, cargar documentos, asignar tareas, supervisar el progreso, corregir las anotaciones y exportar los documentos anotados. Esta documentación garantiza una gestión eficiente y fluida de la plataforma durante toda la campaña de anotaciones.
(La guía continua está disponible en esta dirección).
Innovatiana se distingue por ofrecer una solución integral a través de su plataforma accesible en https://dashboard.innovatiana.com. Esta plataforma ofrece una respuesta global a los requisitos de recopilación y anotación de datos dentro del mismo entorno. Al centralizar todas las necesidades relacionadas con estos procesos, se posiciona como una solución única para proyectos de inteligencia artificial. La plataforma permite responder de forma personalizada a los requisitos específicos de cada proyecto. Además, ofrece la flexibilidad necesaria para fortalecer los equipos de etiquetado, promoviendo así un enfoque colaborativo y eficaz. Innovatiana está totalmente en línea con una perspectiva de anotación dinámica y en evolución, y proporciona una solución completa y adaptada para hacer frente a los desafíos actuales de los proyectos de inteligencia artificial.