Conjunto de datos WikiText-103
WikiText-103 es un gran conjunto de datos de texto, extraído de Wikipedia, diseñado para entrenar y evaluar modelos lingüísticos. Se distingue por la calidad lingüística de sus textos, que mantienen una estructura gramatical natural, a diferencia de otros conjuntos de datos que contienen contenido ruidoso o desestructurado.
Más de 100 millones de palabras en formato TXT
Gratuito para uso académico. Auditoría recomendada para proyectos comerciales
Descripción
El conjunto de datos WikiText-103 incluye:
- 28.475 artículos de Wikipedia
- Más de 100 millones de palabras en inglés
- Textos completos, sin truncar y con poco ruido
- Un formato sin procesar (TXT), adecuado para entrenar modelos autorregresivos o bidireccionales
¿Para qué sirve este conjunto de datos?
WikiText-103 se utiliza para:
- Modelos de generación de textos de entrenamiento/LL (por ejemplo, GPT, Transformer-XL, etc.)
- Evaluación de modelos en tareas de modelado de lenguaje puro
- Modelos de ajuste fino para completar o predecir secuencias
- El estudio de las estructuras sintácticas y la coherencia contextual en la PNL
¿Se puede enriquecer o mejorar?
Sí, el conjunto de datos se puede enriquecer de varias maneras:
- Combinándolo con otros corpus especializados para tareas multilingües o sectoriales
- Limpiando aún más los datos o eliminando posibles duplicaciones
- Estructurando el corpus para una anotación semántica o sintáctica más precisa
- Añadiendo metadatos o enlaces a las entidades mencionadas para NER o vinculando tareas
🔗 Fuente: Conjunto de datos de WikiText
Preguntas frecuentes
¿Cuál es la diferencia entre WikiText-2 y WikiText-103?
WikiText-103 es una versión mucho más grande y completa que WikiText-2. Contiene más de 100 millones de palabras en comparación con los alrededor de 2 millones de WikiText-2, lo que permite entrenar modelos más profundos y eficientes.
¿Se puede usar WikiText-103 para entrenar modelos multilingües?
No, WikiText-103 solo está en inglés. Para los enfoques multilingües, es preferible utilizar conjuntos de datos como CC100, OSCAR o mC4.
¿Por qué usar WikiText-103 en lugar de fragmentos sin procesar de Wikipedia?
WikiText-103 ha sido cuidadosamente seleccionado para evitar entradas demasiado cortas, ruidosas o poco informativas. Mantiene los enlaces estructurales y la coherencia de los párrafos, lo que lo hace mucho más fiable para la formación de modelos lingüísticos de calidad.