CONLL-2003

El conjunto de datos ConLL-2003 es una referencia en el procesamiento automático del lenguaje para la tarea de reconocimiento de entidades nombradas (NER). Se presentó como parte de la conferencia ConLL-2003 Shared Task y contiene textos anotados con entidades como personas, organizaciones, lugares y varios nombres.

Obtén el dataset

Tamaño

Varios cientos de miles de fichas anotadas, en formato BIO (ConLL)

Licencia

Uso académico bajo licencia específica. Se requiere verificación para usos comerciales

Descripción

‍
El conjunto de datos ConLL-2003 incluye:

Textos periodísticos extraídos de Reuters RCV1
Varios cientos de miles de fichas anotadas manualmente
Un formato BIO (Begin, Inside, Outside) estandarizado para NER
Entidades nombradas clasificadas en 4 categorías: PER (personas), LOC (lugares), ORG (organizaciones), MISC (otras)

‍

¿Para qué sirve este conjunto de datos?

‍
ConLL-2003 se utiliza para:

Entrenamiento de modelos de reconocimiento de entidades nombradas (NER)
Evaluación comparativa de nuevas arquitecturas de PNL
Extracción automática de información de documentos estructurados o no estructurados
La mejora de los motores de búsqueda, los sistemas de monitorización o los asistentes de voz

‍

¿Se puede enriquecer o mejorar?

‍
Sí, este corpus se puede enriquecer de varias maneras:

Adaptación a otros idiomas o campos específicos (legal, médico, etc.)
Ampliación del esquema de anotación con nuevas clases de elemento
Agregue relaciones entre entidades para vincular o correferenciar tareas de resolución
Integración en canalizaciones integrales de PNL, incluida la clasificación, el análisis o el resumen

‍

🔗 Fuente: Conjunto de datos ConLL-2003

‍

Preguntas frecuentes

¿Por qué se usa tanto ConLL-2003 para NER?

Porque ofrece un punto de referencia estandarizado, reproducible y bien anotado, lo que lo convierte en una referencia para comparar el desempeño de los modelos en una tarea fundamental de PNL.

¿El conjunto de datos cubre varios idiomas?

Sí, incluye datos en inglés y alemán. Para otros idiomas, se pueden usar variantes como WikiAnn o MASAKHANE.

‍

¿Se puede adaptar ConLL-2003 a los casos de uso empresarial?

Sí, al ajustar las clases de entidades o combinar este conjunto de datos con corpus internos, se puede utilizar para entrenar modelos NER especializados en contextos empresariales específicos.

Otros datasets

Medical

Radiografías de tórax del NIH

Vídeo

Conjunto de datos de ventas de cosméticos para minorías de Innovatiana (CRD)

Texto

Rust: Java Test - Dataset para la evaluación de fragmentos de código