OpenThoughts 114k
Corpus de raisonnement structuré couvrant mathématiques, sciences, programmation et puzzles. Utilisé pour affiner et tester les modèles OpenThinker.
114 000 exemples au format JSON (problèmes, solutions, raisonnements, code), données prêtes à l'entraînement
Apache 2.0
Description
OpenThoughts-114k est un jeu de données de raisonnement génératif rassemblant 114 000 exemples de haute qualité. Chaque entrée comprend un problème, une solution de référence, un raisonnement intermédiaire, et parfois du code. Le dataset couvre divers domaines comme les mathématiques, les sciences, l’informatique et les énigmes, et il a été utilisé pour entraîner les modèles OpenThinker (7B et 32B).
À quoi sert ce dataset ?
- Entraîner des modèles à effectuer des raisonnements multi-étapes
- Créer des benchmarks pour tester des modèles LLM sur des tâches STEM
- Améliorer la performance des modèles sur des cas complexes via fine-tuning
Peut-on l’enrichir ou l’améliorer ?
Oui, il est possible d’ajouter des annotations sur les étapes de raisonnement, de classer les problèmes par difficulté, ou encore de générer des variantes de questions. Le dataset peut également être combiné à d'autres ressources pour créer des ensembles multilingues ou multi-domaines.
🔎 En résumé
🧠 Recommandé pour
- Ingénieurs IA
- Chercheurs en NLP
- Créateurs de modèles de raisonnement
🔧 Outils compatibles
- Transformers
- Evalchemy
- Jupyter
- LoRA
- Curator Viewer
💡 Astuce
Utilisez le sous-ensemble "metadata" pour des tâches de recherche sur les stratégies de raisonnement ou d’explicabilité.
Questions fréquemment posées
Ce dataset inclut-il des raisonnements étape par étape ?
Oui, chaque exemple contient un raisonnement intermédiaire généré par modèle, facilitant l’analyse fine des processus cognitifs simulés.
Peut-on utiliser ce dataset pour des modèles de génération de code ?
Oui, une partie du dataset contient du code avec des cas de test et du starter code, idéal pour le fine-tuning sur des tâches de codage.
Est-il possible d’isoler les exemples par domaine (math, science, etc.) ?
Oui, chaque exemple est annoté avec un champ "domain" permettant un filtrage thématique précis selon le type de problème.