En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
ConLL-2003
Texte

ConLL-2003

Le dataset CoNLL-2003 est une référence en traitement automatique du langage pour la tâche de reconnaissance des entités nommées (Named Entity Recognition – NER). Il a été introduit dans le cadre de la conférence CoNLL-2003 Shared Task et contient des textes annotés avec des entités telles que personnes, organisations, lieux et noms divers.

Télécharger le dataset
Taille

Plusieurs centaines de milliers de tokens annotés, au format BIO (CoNLL)

Licence

Usage académique sous licence spécifique. Vérification requise pour les usages commerciaux

Description


Le dataset CoNLL-2003 comprend :

  • Des textes journalistiques tirés de Reuters RCV1
  • Plusieurs centaines de milliers de tokens annotés manuellement
  • Un format BIO (Begin, Inside, Outside) standardisé pour le NER
  • Des entités nommées classées en 4 catégories : PER (personnes), LOC (lieux), ORG (organisations), MISC (autres)

À quoi sert ce dataset ?


CoNLL-2003 est utilisé pour :

  • L’entraînement de modèles de reconnaissance des entités nommées (NER)
  • L’évaluation comparative de nouvelles architectures de NLP
  • L’extraction automatique d’informations depuis des documents structurés ou non
  • L’amélioration des moteurs de recherche, des systèmes de veille ou des assistants vocaux

Peut-on l’enrichir ou l’améliorer ?


Oui, ce corpus peut être enrichi de différentes manières :

  • Adaptation à d’autres langues ou domaines spécifiques (juridique, médical, etc.)
  • Extension du schéma d’annotation avec de nouvelles classes d’entités
  • Ajout de relations entre entités pour des tâches de linking ou de coreference resolution
  • Intégration dans des pipelines NLP complets incluant classification, parsing ou résumé

🔗 Source : CoNLL-2003 Dataset

Questions fréquemment posées

Pourquoi CoNLL-2003 est-il autant utilisé pour la NER ?

Parce qu’il propose un benchmark standardisé, reproductible et bien annoté, ce qui en fait une référence pour comparer les performances des modèles sur une tâche fondamentale du NLP.

Le dataset couvre-t-il plusieurs langues ?

Oui, il inclut des données en anglais et en allemand. Pour d’autres langues, des variantes comme WikiANN ou MASAKHANE peuvent être utilisées.

Peut-on adapter CoNLL-2003 à des cas d’usage métiers ?

Oui, en ajustant les classes d’entités ou en combinant ce dataset avec des corpus internes, il peut servir à entraîner des modèles NER spécialisés dans des contextes métier spécifiques.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.