Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
CONLL-2003
Texto

CONLL-2003

El conjunto de datos ConLL-2003 es una referencia en el procesamiento automático del lenguaje para la tarea de reconocimiento de entidades nombradas (NER). Se presentó como parte de la conferencia ConLL-2003 Shared Task y contiene textos anotados con entidades como personas, organizaciones, lugares y varios nombres.

Obtén el dataset
Tamaño

Varios cientos de miles de fichas anotadas, en formato BIO (ConLL)

Licencia

Uso académico bajo licencia específica. Se requiere verificación para usos comerciales

Descripción


El conjunto de datos ConLL-2003 incluye:

  • Textos periodísticos extraídos de Reuters RCV1
  • Varios cientos de miles de fichas anotadas manualmente
  • Un formato BIO (Begin, Inside, Outside) estandarizado para NER
  • Entidades nombradas clasificadas en 4 categorías: PER (personas), LOC (lugares), ORG (organizaciones), MISC (otras)

¿Para qué sirve este conjunto de datos?


ConLL-2003 se utiliza para:

  • Entrenamiento de modelos de reconocimiento de entidades nombradas (NER)
  • Evaluación comparativa de nuevas arquitecturas de PNL
  • Extracción automática de información de documentos estructurados o no estructurados
  • La mejora de los motores de búsqueda, los sistemas de monitorización o los asistentes de voz

¿Se puede enriquecer o mejorar?


Sí, este corpus se puede enriquecer de varias maneras:

  • Adaptación a otros idiomas o campos específicos (legal, médico, etc.)
  • Ampliación del esquema de anotación con nuevas clases de elemento
  • Agregue relaciones entre entidades para vincular o correferenciar tareas de resolución
  • Integración en canalizaciones integrales de PNL, incluida la clasificación, el análisis o el resumen

🔗 Fuente: Conjunto de datos ConLL-2003

Preguntas frecuentes

¿Por qué se usa tanto ConLL-2003 para NER?

Porque ofrece un punto de referencia estandarizado, reproducible y bien anotado, lo que lo convierte en una referencia para comparar el desempeño de los modelos en una tarea fundamental de PNL.

¿El conjunto de datos cubre varios idiomas?

Sí, incluye datos en inglés y alemán. Para otros idiomas, se pueden usar variantes como WikiAnn o MASAKHANE.

¿Se puede adaptar ConLL-2003 a los casos de uso empresarial?

Sí, al ajustar las clases de entidades o combinar este conjunto de datos con corpus internos, se puede utilizar para entrenar modelos NER especializados en contextos empresariales específicos.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.