FineWeb-Edu
Corpus massif filtré pour sa qualité éducative, issu de CommonCrawl, destiné à l'entraînement de LLM sur des tâches orientées apprentissage et compréhension.
1.3T tokens en Parquet, version filtrée de CommonCrawl, streaming disponible
ODC-By 1.0
Description
FineWeb-Edu est une version filtrée du dataset web FineWeb, sélectionnée selon un score d’utilité éducative établi par un classifieur basé sur Llama3-70B. Il regroupe 1.3T tokens issus de pages web éducatives, structurées en fichiers Parquet, et est destiné à l'entraînement de modèles LLM sur du contenu informatif et pédagogique.
À quoi sert ce dataset ?
- Entraîner des modèles LLM sur du contenu éducatif fiable et ciblé
- Améliorer les performances sur les benchmarks comme MMLU, ARC, OpenBookQA
- Construire des assistants d’apprentissage ou de réponse à des questions complexes
Peut-on l’enrichir ou l’améliorer ?
Oui, FineWeb-Edu peut être combiné à d’autres sources structurées (ex. Wikipédia, StackExchange) ou spécialisé pour des disciplines (maths, physique, etc.). Des versions dédupliquées ou filtrées selon des niveaux scolaires spécifiques peuvent également être produites.
🔎 En résumé
🧠 Recommandé pour
- Développeurs de LLM éducatifs
- Chercheurs en NLP
- Plateformes pédagogiques
🔧 Outils compatibles
- Datatrove
- Hugging Face Datasets
- PyTorch
- Streaming Parquet
💡 Astuce
Pour des tâches spécifiques, utilisez les versions échantillonnées (10B, 100B, 350B) pour accélérer vos itérations d'entraînement.
Questions fréquemment posées
Est-ce que FineWeb-Edu contient uniquement du contenu scolaire ?
Non, il contient tout type de contenu jugé “éducatif” par le classifieur (ex. guides pratiques, cours, explications encyclopédiques, etc.).
Quelle est la différence entre FineWeb et FineWeb-Edu ?
FineWeb-Edu est une version filtrée de FineWeb contenant uniquement des pages ayant obtenu un score élevé en qualité éducative, évaluées par Llama3.
Peut-on utiliser FineWeb-Edu pour entraîner un modèle multilingue ?
Le contenu est principalement en anglais, mais certaines pages multilingues peuvent être incluses. Il est conseillé de compléter avec des datasets multilingues.