OpenThoughts 114k

Corpus de raisonnement structuré couvrant mathématiques, sciences, programmation et puzzles. Utilisé pour affiner et tester les modèles OpenThinker.

Télécharger le dataset

Taille

114 000 exemples au format JSON (problèmes, solutions, raisonnements, code), données prêtes à l'entraînement

Licence

Apache 2.0

Description

‍

OpenThoughts-114k est un jeu de données de raisonnement génératif rassemblant 114 000 exemples de haute qualité. Chaque entrée comprend un problème, une solution de référence, un raisonnement intermédiaire, et parfois du code. Le dataset couvre divers domaines comme les mathématiques, les sciences, l’informatique et les énigmes, et il a été utilisé pour entraîner les modèles OpenThinker (7B et 32B).

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles à effectuer des raisonnements multi-étapes
Créer des benchmarks pour tester des modèles LLM sur des tâches STEM
Améliorer la performance des modèles sur des cas complexes via fine-tuning

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’ajouter des annotations sur les étapes de raisonnement, de classer les problèmes par difficulté, ou encore de générer des variantes de questions. Le dataset peut également être combiné à d'autres ressources pour créer des ensembles multilingues ou multi-domaines.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐⭐ (Directement exploitable pour l'entraînement)
🧼Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible — données bien structurées)
🏷️Richesse des annotations	⭐⭐⭐⭐⭐ (Complète – solutions, raisonnements, métadonnées)
📜Licence commerciale	✅ Oui (Apache 2.0)
👨‍💻Idéal pour les débutants	🧑‍🎓 Oui, avec une base technique minimale
🔁Réutilisable en fine-tuning	🔥 Excellent pour modèles STEM ou reasoning
🌍Diversité culturelle	🌍 Modérée — contenu technique, peu culturel