Conjunto de datos WikiText-103

WikiText-103 es un gran conjunto de datos de texto, extraído de Wikipedia, diseñado para entrenar y evaluar modelos lingüísticos. Se distingue por la calidad lingüística de sus textos, que mantienen una estructura gramatical natural, a diferencia de otros conjuntos de datos que contienen contenido ruidoso o desestructurado.

Obtén el dataset

Tamaño

Más de 100 millones de palabras en formato TXT

Licencia

Gratuito para uso académico. Auditoría recomendada para proyectos comerciales

Descripción

‍
El conjunto de datos WikiText-103 incluye:

28.475 artículos de Wikipedia
Más de 100 millones de palabras en inglés
Textos completos, sin truncar y con poco ruido
Un formato sin procesar (TXT), adecuado para entrenar modelos autorregresivos o bidireccionales

‍

¿Para qué sirve este conjunto de datos?

‍
WikiText-103 se utiliza para:

Modelos de generación de textos de entrenamiento/LL (por ejemplo, GPT, Transformer-XL, etc.)
Evaluación de modelos en tareas de modelado de lenguaje puro
Modelos de ajuste fino para completar o predecir secuencias
El estudio de las estructuras sintácticas y la coherencia contextual en la PNL

‍

¿Se puede enriquecer o mejorar?

‍
Sí, el conjunto de datos se puede enriquecer de varias maneras:

Combinándolo con otros corpus especializados para tareas multilingües o sectoriales
Limpiando aún más los datos o eliminando posibles duplicaciones
Estructurando el corpus para una anotación semántica o sintáctica más precisa
Añadiendo metadatos o enlaces a las entidades mencionadas para NER o vinculando tareas

‍

🔗 Fuente: Conjunto de datos de WikiText

‍

Preguntas frecuentes

¿Cuál es la diferencia entre WikiText-2 y WikiText-103?

WikiText-103 es una versión mucho más grande y completa que WikiText-2. Contiene más de 100 millones de palabras en comparación con los alrededor de 2 millones de WikiText-2, lo que permite entrenar modelos más profundos y eficientes.

¿Se puede usar WikiText-103 para entrenar modelos multilingües?

No, WikiText-103 solo está en inglés. Para los enfoques multilingües, es preferible utilizar conjuntos de datos como CC100, OSCAR o mC4.

‍

¿Por qué usar WikiText-103 en lugar de fragmentos sin procesar de Wikipedia?

WikiText-103 ha sido cuidadosamente seleccionado para evitar entradas demasiado cortas, ruidosas o poco informativas. Mantiene los enlaces estructurales y la coherencia de los párrafos, lo que lo hace mucho más fiable para la formación de modelos lingüísticos de calidad.

Otros datasets

Audio

Respiratory Sound Database

Medical

Conjunto de datos del TCIA (archivo de imágenes del cáncer)

Texto

Conjunto de datos de Google Trends