En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Data Labeling

Conduire sa campagne d’annotation de données : le guide (1/2)

Ecrit par
Nicolas
Publié le
2023-12-18
Temps de lecture
This is some text inside of a div block.
min

Pourquoi annoter des images, des vidéos, des textes, … quelle importance en IA ?

Pour analyser le contenu de vos données, former des algorithmes supervisés et réussir votre projet d'intelligence artificielle, l'utilisation de données "structurées" ou "annotées" s'avère indispensable.

Si vos données sont déjà structurées, cela signifie qu'elles ont été préalablement organisées de manière à être représentées sous forme de tableau, avec des lignes correspondant à des observations et des colonnes correspondant à des variables. En intégrant un processus de structuration en amont, vous bénéficiez d'un gain de temps significatif et il est probable que vous n'ayez pas besoin d'une phase d'annotation, vos données étant déjà structurées.

En revanche, si vos données sont "non structurées", c'est-à-dire qu'elles ne peuvent pas être décrites par un modèle prédéfini, ne sont pas catégorisées et peuvent être très diverses (images, textes, vidéos, etc.), il est fort probable que vous ayez besoin d'annoter ces données. Le caractère non structuré de ces données rend leur exploitation par des algorithmes d'intelligence artificielle beaucoup plus complexe. Dans ce cas, l'organisation d'une phase d'annotation devient nécessaire.

La phase d'annotation, qui consiste à attribuer une ou plusieurs étiquettes à des éléments d'un jeu de données, permet ainsi de créer un ensemble de données structuré, rendant possible l'entraînement d'algorithmes supervisés.

L'annotation correspond à la démarche consistant à assigner à chaque donnée le label qui lui convient le mieux. Par exemple, cela peut consister à l'attribution de labels tels que « chien » ou « chat » à une collection de photographies d'animaux, ou encore la sélection de labels appropriés parmi « ville », « type de logement », « prix proposé à l’achat » sur une série d’annonces immobilières.

La qualité de votre solution d'IA, en termes de pertinence et de performance, sera grandement influencée par la qualité des données, dont la précision des étiquettes constitue un aspect important, bien que d'autres aspects qualitatifs puissent également jouer un rôle (tels que la complétude des variables explicatives, la détection des valeurs aberrantes, etc.). Il est donc essentiel que la phase d'annotation soit réalisée en veillant particulièrement à obtenir des étiquettes de haute qualité. Ce guide présente les étapes clés et quelques bonnes pratiques pour garantir cet objectif.

Comment préparer sa campagne d’annotation de données ?

Identifier les parties prenantes

Conduire une campagne d’annotation de textes, d'images ou de vidéos, requiert une équipe spécialisée, comprenant des annotateurs (ou Data Labelers), un chef de projet, un Data Scientist et éventuellement un administrateur de la plateforme d'annotation (solution de labellisation telle que Label Studio ou encore CVAT).

Ci-dessous, un bref aperçu des différents profils impliqués dans les campagnes d'annotation pour l'IA :

Le chef de projet (Expert Métier)

Le chef de projet, expert métier, joue un rôle essentiel dans la planification et le suivi du processus d'annotation. Ses responsabilités incluent la mise en place du schéma d'annotation et du manuel associé, la formation des annotateurs, l'estimation du temps nécessaire aux différentes tâches d'annotation, la mise en place d'un plan d'annotation, et le suivi qualitatif et quantitatif du projet.

Le Data Scientist (Expert Technique)

Le Data Scientist met en œuvre des outils et méthodes pour évaluer l'avancement et la qualité des annotations, pour les besoins d'un modèle IA. Il peut également pré-annoter les documents, prioriser les annotations, et mettre en place des méthodes informatiques pour accélérer le processus d'annotation. En amont de l’annotation, le Data Scientist peut définir une stratégie de curation des données, en effectuant un premier travail sur les données brutes afin d’éliminer le bruit (par exemple : frames illisibles dans un set de vidéos).

L'administrateur de la plateforme d’annotation

L'administrateur de la plateforme s'occupe de l'installation du logiciel d'annotation, de la gestion des comptes utilisateurs, de la mise à disposition des documents et de la préparation des environnements de labellisation, et de la sauvegarde régulière des annotations pour éviter toute perte de données. Il s'assure également de la pertinence de la solution et réalise l'ensemble des tests techniques nécessaires à l'exploitation des données et méta-données produites (exemple : est-il possible d'extraire des données complètes au format JSON avec un niveau de performance approprié).

Les annotateurs de données

Le profil des annotateurs varie en fonction de la tâche d'annotation. Certains cas nécessitent simplement une maîtrise d’une langue telle que l'anglais ou le français, tandis que d'autres exigent une expertise spécifique (par exemple : connaissances en anatomie, expertise spécifique dans le domaine sportif, etc.). Les annotateurs ont pour mission de comprendre la tâche, d'annoter les documents, et de remonter les questions ou difficultés au responsable de la campagne, au fur et à mesure de l'annotation.

Définir une problématique

Le processus d’annotation, souvent une phase préliminaire d'un projet IA à envergure plus large, nécessite une réflexion approfondie sur la problématique du projet avant son commencement effectif. Cette précaution garantit que les annotations réalisées contribuent de manière efficace à résoudre la problématique spécifique du projet.

Le processus d'annotation peut varier en fonction de l'application visée et de la nature de la problématique choisie. Par conséquent, il est impératif de répondre à une série de questions essentielles :

   • Quel problème vise à résoudre le projet ?

   • Quel est le contexte global du projet et quelle mission de service public soutient-il ?

   • Quels sont les objectifs stratégiques du projet et comment s'alignent-ils sur les objectifs de l'organisation ?

   • Quels sont les objectifs opérationnels du projet ?

   • Quels sont les impacts attendus de la solution sur l'organisation du service, tant du point de vue des agents publics que des utilisateurs ?

   • Existe-t-il des projets similaires dont l'exploration pourrait être bénéfique ?

   • Quel est le périmètre de la solution envisagée, et comment cela influe-t-il sur le champ des données à annoter ?

Élaborer un schéma d’annotation de données

Le schéma d'annotation est un modèle qui permet de décrire les annotations de votre projet. Il doit découler de la problématique définie précédemment. Concrètement, il est constitué a minima d'un ensemble d'étiquettes (c'est-à-dire des termes permettant de caractériser telle ou telle information dans un document) et d'une définition précise de ces différentes étiquettes. Pour certains projets, le schéma d'annotation peut en plus être défini par une hiérarchisation entre les étiquettes ou encore par des relations entre les termes. L'ensemble des étiquettes peuvent en effet être hiérarchisées entre elles. Le schéma d'annotation est parfois complété par une tâche d'identification de relations entre les entités annotées (par exemple, une tâche d'annotation pourra être de relier un pronom au nom auquel il se rapporte).

La problématique métier à laquelle le projet répond est souvent complexe, avec beaucoup de cas particuliers ou d'exceptions aux règles usuelles. Établir un schéma d'annotation implique souvent un travail de simplification (qui a également pour conséquence une perte d'information ou de précision). Il est important cependant ne pas simplifier à l'extrême, et donc de trouver un bon équilibre entre simplicité et adéquation à la problématique métier. Afin de trouver cet équilibre, un processus itératif est généralement la meilleure méthode à adopter. Si l'annotation a pour objectif d'entraîner un algorithme d'intelligence artificielle, il ne faut pas exclure a priori des spécificités ou des consignes qui seraient trop difficiles à reproduire par une solution automatique.

Développer la documentation pour la campagne d'annotations, et la mettre à jour

La documentation représente un élément fondamental et doit évoluer de manière dynamique tout au long de la campagne d'annotation. En enregistrant méthodiquement les étapes franchies et en répertoriant les défis rencontrés, la documentation se révèle être un outil précieux pour assurer une uniformité d'information au sein de l'équipe projet. Elle joue également un rôle bénéfique en partageant les enseignements tirés avec d'autres projets similaires.

Divers types de documentations, chacun ciblant des fonctions spécifiques au sein du projet, sont indispensables : une documentation générale, une documentation destinée aux annotateurs, et une documentation spécifiquement conçue pour l'administrateur de la plateforme d'annotation.

Guide pour les annotateurs

La documentation destinée aux annotateurs revêt une importance capitale en tant que support de formation. Elle doit inclure des éléments tels que la description détaillée du projet pour offrir une vision claire de l'application visée, le schéma synthétique d'annotation hiérarchisé le cas échéant, des explications précises sur les différents labels, y compris les choix méthodologiques et la logique sous-jacente à l'annotation. Des instructions sur la prise en main du logiciel d'annotation, des exemples concrets de cas particuliers et une section de Questions / Réponses contribuent à faciliter le processus d'annotation.

Guide pour l’administrateur de la plateforme d’annotation (V7 Labs, Encord ou encore CVAT)

Documenter le fonctionnement de la plateforme d'annotation est tout aussi important. Un guide spécifique pour l'administrateur de la plateforme devrait expliquer comment créer des comptes pour les annotateurs, charger des documents, attribuer des tâches, surveiller les progrès, corriger les annotations, et exporter les documents annotés. Cette documentation garantit une gestion efficace et fluide de la plateforme tout au long de la campagne d'annotation.

(Suite du guide disponible à cette adresse).

Innovatiana se distingue en proposant une solution intégrale à travers sa plateforme "CUBE", accessible à l'adresse https://dashboard.innovatiana.com. Cette plateforme offre une réponse globale aux exigences de collecte et d'annotation de données au sein d'un même environnement. En centralisant tous les besoins liés à ces processus, elle se positionne comme une solution unique pour les projets d'intelligence artificielle. La plateforme permet de répondre de manière personnalisée aux exigences spécifiques de chaque projet. De plus, elle offre la flexibilité nécessaire pour renforcer les équipes de labellisation, favorisant ainsi une approche collaborative et efficace. Innovatiana s'inscrit pleinement dans une perspective dynamique et évolutive de l'annotation, en fournissant une solution complète et adaptée pour relever les défis actuels des projets d'intelligence artificielle.