En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
WikiText-103 Dataset
Texte

WikiText-103 Dataset

WikiText-103 est un jeu de données textuelles de grande ampleur, extrait de Wikipédia, conçu pour l’entraînement et l’évaluation de modèles de langage. Il se distingue par la qualité linguistique de ses textes, qui conservent une structure grammaticale naturelle, contrairement à d'autres jeux de données contenant du contenu bruité ou déstructuré.

Télécharger le dataset
Taille

Plus de 100 millions de mots au format TXT

Licence

Libre pour un usage académique. Vérification recommandée pour les projets à visée commerciale

Description


Le dataset WikiText-103 comprend :

  • 28 475 articles de Wikipédia
  • Plus de 100 millions de mots en anglais
  • Des textes complets, non tronqués et peu bruités
  • Un format brut (TXT), adapté à l'entraînement de modèles autoregressifs ou bidirectionnels

À quoi sert ce dataset ?


WikiText-103 est utilisé pour :

  • L’entraînement de modèles de génération de texte / LL(ex : GPT, Transformer-XL, etc.)
  • L’évaluation de modèles sur des tâches de modélisation de langage pur
  • Le fine-tuning de modèles pour la complétion ou la prédiction de séquences
  • L’étude des structures syntaxiques et de la cohérence contextuelle dans le NLP

Peut-on l’enrichir ou l’améliorer ?


Oui, le dataset peut être enrichi de plusieurs façons :

  • En le combinant avec d’autres corpus spécialisés pour des tâches multilingues ou sectorielles
  • En nettoyant davantage les données ou en supprimant les duplications éventuelles
  • En structurant le corpus pour une annotation sémantique ou syntaxique plus fine
  • En ajoutant des métadonnées ou des liens vers les entités mentionnées pour des tâches de NER ou de linking

🔗 Source : WikiText Dataset

Questions fréquemment posées

Quelle est la différence entre WikiText-2 et WikiText-103 ?

WikiText-103 est une version beaucoup plus grande et complète que WikiText-2. Il contient plus de 100 millions de mots contre environ 2 millions pour WikiText-2, ce qui permet d’entraîner des modèles plus profonds et plus performants.

Peut-on utiliser WikiText-103 pour entraîner des modèles multilingues ?

Non, WikiText-103 est uniquement en anglais. Pour des approches multilingues, il est préférable de se tourner vers des datasets comme CC100, OSCAR ou mC4.

Pourquoi utiliser WikiText-103 plutôt que des extraits bruts de Wikipédia ?

WikiText-103 a été soigneusement sélectionné pour éviter les entrées trop courtes, bruitées ou peu informatives. Il conserve les liens structurels et la cohérence des paragraphes, ce qui le rend beaucoup plus fiable pour entraîner des modèles de langage de qualité.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.