En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Conjunto de datos WikiText-103
Texto

Conjunto de datos WikiText-103

WikiText-103 es un gran conjunto de datos de texto, extraído de Wikipedia, diseñado para entrenar y evaluar modelos lingüísticos. Se distingue por la calidad lingüística de sus textos, que mantienen una estructura gramatical natural, a diferencia de otros conjuntos de datos que contienen contenido ruidoso o desestructurado.

Obtén el dataset
Tamaño

Más de 100 millones de palabras en formato TXT

Licencia

Gratuito para uso académico. Auditoría recomendada para proyectos comerciales

Descripción


El conjunto de datos WikiText-103 incluye:

  • 28.475 artículos de Wikipedia
  • Más de 100 millones de palabras en inglés
  • Textos completos, sin truncar y con poco ruido
  • Un formato sin procesar (TXT), adecuado para entrenar modelos autorregresivos o bidireccionales

¿Para qué sirve este conjunto de datos?


WikiText-103 se utiliza para:

  • Modelos de generación de textos de entrenamiento/LL (por ejemplo, GPT, Transformer-XL, etc.)
  • Evaluación de modelos en tareas de modelado de lenguaje puro
  • Modelos de ajuste fino para completar o predecir secuencias
  • El estudio de las estructuras sintácticas y la coherencia contextual en la PNL

¿Se puede enriquecer o mejorar?


Sí, el conjunto de datos se puede enriquecer de varias maneras:

  • Combinándolo con otros corpus especializados para tareas multilingües o sectoriales
  • Limpiando aún más los datos o eliminando posibles duplicaciones
  • Estructurando el corpus para una anotación semántica o sintáctica más precisa
  • Añadiendo metadatos o enlaces a las entidades mencionadas para NER o vinculando tareas

🔗 Fuente: Conjunto de datos de WikiText

Preguntas frecuentes

¿Cuál es la diferencia entre WikiText-2 y WikiText-103?

WikiText-103 es una versión mucho más grande y completa que WikiText-2. Contiene más de 100 millones de palabras en comparación con los alrededor de 2 millones de WikiText-2, lo que permite entrenar modelos más profundos y eficientes.

¿Se puede usar WikiText-103 para entrenar modelos multilingües?

No, WikiText-103 solo está en inglés. Para los enfoques multilingües, es preferible utilizar conjuntos de datos como CC100, OSCAR o mC4.

¿Por qué usar WikiText-103 en lugar de fragmentos sin procesar de Wikipedia?

WikiText-103 ha sido cuidadosamente seleccionado para evitar entradas demasiado cortas, ruidosas o poco informativas. Mantiene los enlaces estructurales y la coherencia de los párrafos, lo que lo hace mucho más fiable para la formación de modelos lingüísticos de calidad.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.