En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Data Labeling

Une stratégie d’annotation manuelle pour les projets IA est-elle toujours valide en 2024 ?

Ecrit par
Nicolas
Publié le
2023-12-15
Temps de lecture
This is some text inside of a div block.
min

Une phase d'annotation est-elle nécessaire pour mon projet de développement IA, et quelle stratégie d'annotation adopter ?

Lorsqu'on entreprend un projet basé sur des données non structurées, la question de l'annotation se pose inévitablement. Bien que cette étape ne soit pas systématiquement requise, elle joue un rôle crucial dans la compréhension et l'exploitation des données pour l'IA. Cet article explore la nécessité d'une phase d'annotation manuelle et se penche sur les stratégies à adopter (qu'il s'agisse d'une annotation manuelle ou automatisée, ou encore automatisée et enrichie par des validations manuelles).

Quelles données ? Structurées, semi-structurées ou non structurées ?

La première étape consiste à comprendre la nature des données à analyser, qu’il s’agisse de données textuelles, d’images ou de vidéos par exemple. Leur nature (structurée ou non) ainsi que le volume total des données sont des éléments déterminants. Faut-il annoter, et si oui, quelle approche adopter ? Pour répondre à ces questions, il est essentiel de discerner les différences entre l'annotation manuelle et l'annotation automatique dans le processus de traitement de données préalable au développement d’un produit IA.

Annotations manuelles ou automatiques : quelles différences ?

L'annotation manuelle implique l'attribution de labels à des documents ou à des sous-ensembles de documents par des intervenants humains (des annotateurs de données, également appelés Data Labelers). En revanche, l'annotation automatique fait intervenir des programmes informatiques dans cette tâche (à ne pas confondre avec la plateforme de labellisation, qui est un outil facilitant les tâches d'annotation pouvant être utilisé pour des tâches automatiques et manuelles). Cette automatisation peut se réaliser par le biais de différentes méthodes, parmi lesquelles des techniques s’appuyant sur un ensemble de règles, ou des algorithmes d'apprentissage supervisé utilisés pour l’annotation (et donc, dont la finalité n’est pas d’être un produit pour l’utilisateur final, mais bien une IA utilisée pour préparer des données pour d’autres IA). Ces derniers algorithmes d’apprentissage supervisé nécessitent une phase préalable d'annotation.

Le choix entre annotation manuelle et annotation automatique dépend largement des caractéristiques du projet. L'annotation manuelle offre une précision souvent inégalée, mais peut être coûteuse et chronophage. En revanche, l'annotation automatique, bien que généralement moins précise, peut être plus rapide et économique. Il est également possible d'opter pour une approche hybride, combinant les avantages des deux méthodes pour maximiser l'efficacité tout en préservant la qualité des annotations.

Améliorer l'annotation manuelle à l'aide de l'intelligence artificielle (IA) : dans quels cas est-ce pertinent ?

La pertinence de recourir à des méthodes d'IA pour structurer les données dépend étroitement du volume de données à traiter. Par exemple, lorsqu'il s'agit d'analyser des réponses à un questionnaire avec un volume de données relativement modeste, il peut être plus judicieux d'opter pour une approche manuelle d'annotation. Cette méthode, bien que consommatrice de temps, peut répondre de manière précise aux objectifs d'analyse des thématiques abordées par les répondants. Il est important de noter que déterminer la pertinence de l'IA ne repose pas uniquement sur un seuil fixe de nombre de documents, mais plutôt sur des critères tels que la nature, la longueur des documents et la complexité de la tâche d'annotation.

Cependant, lorsque l'on est confronté à un volume important de documents ou à un flux continu de données, l'automatisation du processus d'annotation devient généralement une option pertinente. Dans ces situations, la phase d'annotation a pour objectif d'annoter initialement une partie des documents, en fonction de la nature des documents et de la complexité de la tâche. Cette annotation partielle sert ensuite à entraîner un algorithme supervisé, permettant ainsi d'automatiser efficacement l'annotation sur l'ensemble du corpus. Attention toutefois à ne pas imaginer que la tâche d'annotation automatique se suffit à elle-même. Généralement, elle permettra de produire des données pré-labellisées mais demandant d'être qualifiés par des annotateurs professionnels pour être exploitable par un modèle IA. La tâche d’annotation devient plus ciblée pour les annotateurs, ce qui rend leur travail plus efficient.

Une approche souvent recommandée consiste à utiliser l'Active Learning dans les processus d'annotation, pour améliorer les conditions de travail et l'efficacité des annotateurs. L'Active Learning consiste à sélectionner de manière intelligente les exemples les plus informatifs pour l'algorithme afin d'améliorer progressivement sa performance. En intégrant l'Active Learning dans le processus d’annotation manuelle, on peut optimiser le processus en ciblant spécifiquement les données les plus complexes ou ambiguës, ce qui contribue à accroître l'efficacité et la précision de l'algorithme au fil du temps.


Prenons pour exemple une tâche d’annotation d’annonces immobilières (30 à 40 labels en moyenne pour chaque annonce de 500 mots). En intégrant l'Active Learning après avoir annoté 2000 textes, on générera des données pré-annotées. Ces données pré-annotées seront ensuite soumises aux annotateurs pour une qualification manuelle, c'est-à-dire qu'ils auront pour tâche de contrôler et corriger les erreurs de pré-annotation, plutôt que d'effectuer manuellement l'annotation des 30 à 40 labels mentionnés précédemment, pour 5'000 annonces restantes, par exemple.

Conclusion

L'équilibre entre l'annotation manuelle et automatique s'ajuste en fonction des exigences spécifiques des campagnes d’annotation de données et projets d'intelligence artificielle. Une approche dynamique et adaptative est indispensable. Dans ce contexte, Innovatiana se distingue en proposant une solution complète à travers sa plateforme "CUBE", accessible à l'adresse https://dashboard.innovatiana.com. Cette plateforme permet d’accéder à des données labellisées à la demande, pour répondre aux besoins variés des projets, tout en offrant la possibilité de renforcer les équipes de labellisation en mobilisant notre équipe de Data Labelers. Ainsi, Innovatiana s'inscrit pleinement dans une vision dynamique et progressive de l'annotation au sein des projets d'intelligence artificielle, offrant une réponse complète et adaptée aux défis actuels.