ConLL-2003

Le dataset CoNLL-2003 est une référence en traitement automatique du langage pour la tâche de reconnaissance des entités nommées (Named Entity Recognition – NER). Il a été introduit dans le cadre de la conférence CoNLL-2003 Shared Task et contient des textes annotés avec des entités telles que personnes, organisations, lieux et noms divers.

Télécharger le dataset

Taille

Plusieurs centaines de milliers de tokens annotés, au format BIO (CoNLL)

Licence

Usage académique sous licence spécifique. Vérification requise pour les usages commerciaux

Description

‍
Le dataset CoNLL-2003 comprend :

Des textes journalistiques tirés de Reuters RCV1
Plusieurs centaines de milliers de tokens annotés manuellement
Un format BIO (Begin, Inside, Outside) standardisé pour le NER
Des entités nommées classées en 4 catégories : PER (personnes), LOC (lieux), ORG (organisations), MISC (autres)

‍

À quoi sert ce dataset ?

‍
CoNLL-2003 est utilisé pour :

L’entraînement de modèles de reconnaissance des entités nommées (NER)
L’évaluation comparative de nouvelles architectures de NLP
L’extraction automatique d’informations depuis des documents structurés ou non
L’amélioration des moteurs de recherche, des systèmes de veille ou des assistants vocaux

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, ce corpus peut être enrichi de différentes manières :

Adaptation à d’autres langues ou domaines spécifiques (juridique, médical, etc.)
Extension du schéma d’annotation avec de nouvelles classes d’entités
Ajout de relations entre entités pour des tâches de linking ou de coreference resolution
Intégration dans des pipelines NLP complets incluant classification, parsing ou résumé

‍

🔗 Source : CoNLL-2003 Dataset

‍

Questions fréquemment posées

Pourquoi CoNLL-2003 est-il autant utilisé pour la NER ?

Parce qu’il propose un benchmark standardisé, reproductible et bien annoté, ce qui en fait une référence pour comparer les performances des modèles sur une tâche fondamentale du NLP.

Le dataset couvre-t-il plusieurs langues ?

Oui, il inclut des données en anglais et en allemand. Pour d’autres langues, des variantes comme WikiANN ou MASAKHANE peuvent être utilisées.

‍

Peut-on adapter CoNLL-2003 à des cas d’usage métiers ?

Oui, en ajustant les classes d’entités ou en combinant ce dataset avec des corpus internes, il peut servir à entraîner des modèles NER spécialisés dans des contextes métier spécifiques.

Datasets similaires

Audio

DCASE Challenge Dataset

Image

Reddit Memes Dataset

Texte

Consumer Complaints Dataset