En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
FineWeb-Edu
Texte

FineWeb-Edu

Corpus massif filtré pour sa qualité éducative, issu de CommonCrawl, destiné à l'entraînement de LLM sur des tâches orientées apprentissage et compréhension.

Télécharger le dataset
Taille

1.3T tokens en Parquet, version filtrée de CommonCrawl, streaming disponible

Licence

ODC-By 1.0

Description

FineWeb-Edu est une version filtrée du dataset web FineWeb, sélectionnée selon un score d’utilité éducative établi par un classifieur basé sur Llama3-70B. Il regroupe 1.3T tokens issus de pages web éducatives, structurées en fichiers Parquet, et est destiné à l'entraînement de modèles LLM sur du contenu informatif et pédagogique.

À quoi sert ce dataset ?

  • Entraîner des modèles LLM sur du contenu éducatif fiable et ciblé
  • Améliorer les performances sur les benchmarks comme MMLU, ARC, OpenBookQA
  • Construire des assistants d’apprentissage ou de réponse à des questions complexes

Peut-on l’enrichir ou l’améliorer ?

Oui, FineWeb-Edu peut être combiné à d’autres sources structurées (ex. Wikipédia, StackExchange) ou spécialisé pour des disciplines (maths, physique, etc.). Des versions dédupliquées ou filtrées selon des niveaux scolaires spécifiques peuvent également être produites.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐☆ (Streaming via Parquet, usage optimisé avec datatrove)
🧼Besoin de nettoyage ⭐⭐⭐⭐☆ (Faible – préfiltré pour qualité éducative, déjà nettoyé)
🏷️Richesse des annotations ⭐⭐☆☆☆ (Non annoté manuellement mais trié par modèle LLM)
📜Licence commerciale ✅ Oui (ODC-By 1.0)
👨‍💻Idéal pour les débutants ⚠️ Non – volumineux, nécessite outils adaptés (streaming, LFS, datatrove)
🔁Réutilisable en fine-tuning 🔥 Parfait pour pré-entraînement et fine-tuning éducatif
🌍Diversité culturelle 🌐 Fortement dépendant du contenu web global, biais modérés

🧠 Recommandé pour

  • Développeurs de LLM éducatifs
  • Chercheurs en NLP
  • Plateformes pédagogiques

🔧 Outils compatibles

  • Datatrove
  • Hugging Face Datasets
  • PyTorch
  • Streaming Parquet

💡 Astuce

Pour des tâches spécifiques, utilisez les versions échantillonnées (10B, 100B, 350B) pour accélérer vos itérations d'entraînement.

Questions fréquemment posées

Est-ce que FineWeb-Edu contient uniquement du contenu scolaire ?

Non, il contient tout type de contenu jugé “éducatif” par le classifieur (ex. guides pratiques, cours, explications encyclopédiques, etc.).

Quelle est la différence entre FineWeb et FineWeb-Edu ?

FineWeb-Edu est une version filtrée de FineWeb contenant uniquement des pages ayant obtenu un score élevé en qualité éducative, évaluées par Llama3.

Peut-on utiliser FineWeb-Edu pour entraîner un modèle multilingue ?

Le contenu est principalement en anglais, mais certaines pages multilingues peuvent être incluses. Il est conseillé de compléter avec des datasets multilingues.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.