How-to

Conduire sa campagne d’annotation de données : le guide (2/2)

Ecrit par

Nicolas

Publié le

2023-12-18

Temps de lecture

min

Les étapes préliminaires évoquées dans la première partie de ce guide ont conduit à la constitution d'une équipe, à la définition précise de la problématique du projet, et à l'élaboration de règles précises pour les tâches d’annotation. La campagne peut débuter ! Dans cet article, nous avons compilé un ensemble de recommandations pour mener des campagnes d'annotation de données réussies.

‍

Former et mobiliser les Data Labelers pour des projets IA réussis

‍

Former et mobiliser les Data Labelers (ou annotateurs) représente une étape nécessaire à toute campagne d’annotation de données. La nature répétitive, fastidieuse et parfois complexe de la tâche d'annotation expose à des risques d'erreurs tels que l'omission d'un objet à annoter sur une image donnée, ou l'attribution d'un label inapproprié. Une formation approfondie et une mobilisation effective des annotateurs, tant au début qu'au cours du projet, sont essentielles pour atténuer ces risques d'erreurs et surtout les identifier le plus tôt possible.

‍

Dans la phase préliminaire du projet, il est primordial d'expliquer clairement les enjeux du projet à l'équipe d'annotateurs, mettant en avant le rôle central de l'annotation dans la réussite du projet. Il s’agit d’une phase de sensibilisation indispensable. Cette étape d'intégration représente également une opportunité pour sensibiliser les annotateurs aux concepts liés à l'Intelligence Artificielle, et à la réalité des cycles de développement de produits IA.

‍

Une bonne pratique consiste également à maintenir un registre des erreurs les plus courantes, alimenté au fil de l’avancement du projet, avec une démarche participative (à savoir : chaque annotateur est invité à compléter le registre avec les cas particuliers identifiés, complétés d’exemples concrets et illustrés de captures d’écran).

‍

Maintenir l’engagement des annotateurs tout au long du projet

‍

Maintenir l'engagement des annotateurs tout au long du projet requiert une dynamique constante d'échanges. La mise en place d'outils de partage tels que la messagerie instantanée, les forums de discussion et les documents collaboratifs s'avère utile pour favoriser les discussions au sein de l'équipe projet, permettant ainsi de résoudre les difficultés, de poser des questions et de fournir un soutien mutuel. Des sessions de synchronisation régulières peuvent également être instaurées pour communiquer sur les progrès du projet, partager d'éventuels changements ou mettre en lumière des points d'attention spécifiques liés à l'annotation.

‍

Contrôler et s'assurer de la qualité des données

‍

Quand l'objectif final de la campagne d'annotation est de mettre au point un algorithme destiné à automatiser une tâche, la présence d'erreurs au sein des données et méta-données utilisées pour l'entraînement peut entraîner l'algorithme à reproduire les imperfections de l'annotation manuelle. Nous regroupons ici plusieurs bonnes pratiques permettant de fiabiliser les projets, quelle que soit leur envergure.

‍

Créer un jeu de données Ground Truth (ou Vérité Terrain)

‍

Un ensemble de données, également appelé "Ground Truth", est constitué de documents annotés dont les annotations ont été rigoureusement vérifiées, garantissant ainsi une qualité incontestable. Ce jeu de données peut être exploité de diverses manières.

‍

D'une part, les documents correspondants (excluant les annotations) peuvent être soumis à l'annotation par les annotateurs en début de projet. Cette approche vise à assurer une compréhension adéquate de la tâche par les annotateurs et à vérifier que le schéma d'annotation ne présente aucune ambiguïté, c'est-à-dire qu'il ne pourrait pas conduire deux annotateurs à annoter le même document de manière correcte mais divergente. En comparant les annotations des annotateurs avec celles dont la qualité est assurée, les erreurs ou ambiguïtés peuvent être détectées. Ces constatations permettront soit de clarifier les éléments du schéma d'annotation nécessitant une explication supplémentaire, soit de corriger le schéma d'annotation pour éliminer certaines ambiguïtés.

‍

D'autre part, le jeu de données "Ground Truth" peut également servir de jeu de données de test, offrant ainsi la possibilité d'évaluer l'algorithme développé sur un ensemble de données dont la qualité est maximale. Cette approche permet de mesurer la performance de l'algorithme dans des conditions fiables et de s'assurer de sa robustesse et de sa précision.

‍

Vérification aléatoire de documents annotés par les Data Labelers

‍

Il est recommandé que, tout au long du projet, le chef de projet effectue périodiquement une relecture de documents annotés, sélectionnés de manière aléatoire, afin de garantir la qualité des annotations.

‍

Mise en place de tests de cohérence sur les annotations

‍

Dans le cadre de certains projets, il est envisageable de mettre en œuvre des tests automatiques reflétant les règles métier que les annotations doivent respecter. Lorsque de tels tests peuvent être intégrés, ils offrent la possibilité de détecter automatiquement les documents annotés présentant un risque élevé d'erreurs, nécessitant ainsi une vérification prioritaire de la part de l'expert métier.

‍

Pour finir : faire le bilan de sa campagne d’annotations

‍

Conduire une campagne d'annotation, souvent confrontée à des défis complexes, nécessite une évaluation minutieuse à sa clôture pour dégager des enseignements utiles pour les projets ultérieurs impliquant l'annotation. Cette phase critique permet de documenter en détail la méthodologie utilisée, le déroulement de la campagne, ainsi que des métriques clés. La section suivante propose une liste, non exhaustive, de métriques et de questions pertinentes pour une évaluation approfondie de votre campagne d'annotation, offrant ainsi des insights précieux.

‍

Ci-dessous, quelques indicateurs pouvant être utilisés pour évaluer la performance et la pertinence des campagnes d'annotation :

• Durée de la campagne d'annotation

• Nombre d'annotateurs mobilisés

• Volume total de documents annotés

• Temps moyen passé à annoter un document

• Adéquation du logiciel d'annotation (performance, comparaison des résultats en utilisant plusieurs plateformes, ergonomie, etc.)

• Adéquation du schéma d'annotation (lisibilité, reproductibilité, couverture des cas particuliers)

• Capacité à mobiliser des annotateurs professionnels et experts dans leur domaine

‍

Une démarche globale d'évaluation contribue à une meilleure compréhension des succès et des défis rencontrés, fournissant ainsi des informations essentielles pour améliorer les futures campagnes d'annotation.

‍

(Fin du guide. Retrouvez la première partie de notre guide à cette adresse).

‍

Pour aller plus loin, découvrez notre article sur les critères permettant de choisir la bonne plateforme d'annotation selon vos cas d'usage.

‍

Pour piloter vos campagnes d’annotation de données, Innovatiana se démarque en présentant une solution intégrée via une plateforme qui se distingue en offrant une solution globale, accessible à l'adresse https://dashboard.innovatiana.com, pour les défis de collecte et d'annotation de données. Elle représente une approche tout-en-un, centralisant les exigences spécifiques de chaque projet au sein d'un même environnement de travail, permettant ainsi une personnalisation adaptée.

Vous pourriez aimer :

Conduire sa campagne d’annotation de données : le guide (1/2)

Annotation de keypoints : transformez vos données pour des modèles performants !

Annotation de keypoints : cette technique utilisée en Computer Vision aide l'IA à capturer des détails visuels en marquant des points précis

Annotation de texte et IA : comment une simple étiquette révolutionne le traitement de données textuelles

L'annotation de texte permet de structurer les données, aidant les IA à interpréter et analyser le langage humain pour des usages divers