Cosmopedia : Corpus Synthétique Massif
Cosmopedia est un immense corpus de textes synthétiques générés par le modèle Mixtral-8x7B-Instruct-v0.1. Il regroupe des millions d’articles éducatifs, tutoriels, histoires ou billets de blog inspirés de sources comme Stanford, WikiHow ou RedPajama.
30 millions de documents, 25 milliards de tokens, format JSON/Parquet
Apache 2.0
Description
Cosmopedia est un des plus vastes datasets open-source de données synthétiques. Il comprend plus de 30 millions de documents, générés automatiquement par le modèle Mixtral-8x7B-Instruct-v0.1, sur la base de prompts issus de sources éducatives (KhanAcademy, Stanford, WikiHow, etc.) ou web. L’objectif est de recréer une cartographie textuelle mondiale à travers du contenu diversifié et structuré.
À quoi sert ce dataset ?
- Fine-tuning massif de LLMs sur du contenu cohérent et multithématique
- Pré-entraîner des modèles de génération, de QA ou de résumé
- Tester la robustesse de modèles face à des variations synthétiques proches du langage naturel
Peut-on l’enrichir ou l’améliorer ?
Oui. Il est possible d'ajouter une couche de classification par thématique, de filtrer certaines sources ou d’utiliser Cosmopedia comme base pour des systèmes d’enseignement automatisé. Une annotation humaine partielle pourrait également améliorer la qualité sur certains segments.
🔎 En résumé
🧠 Recommandé pour
- Pré-entraînement de LLMs
- Projets éducatifs
- R&D IA générative
🔧 Outils compatibles
- PyTorch
- Hugging Face Datasets
- DeepSpeed
- LoRA
- Axolotl
💡 Astuce
Utilisez la carte interactive de Nomic pour filtrer les thématiques avant ingestion complète dans un pipeline.
Questions fréquemment posées
Le contenu est-il fiable pour un usage éducatif ?
Il s’agit de données synthétiques non vérifiées par des humains, donc à utiliser avec précaution pour des usages critiques.
Puis-je extraire uniquement des articles de type WikiHow ?
Oui, le dataset est divisé en splits selon les sources utilisées pour les prompts. Vous pouvez filtrer en conséquence.
Peut-on entraîner un LLM à partir de ce dataset uniquement ?
Oui, le volume et la diversité rendent Cosmopedia adapté pour un pré-entraînement ou un tuning massif d’un modèle de langage.