En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
OpenThoughts 114k
Texte

OpenThoughts 114k

Corpus de raisonnement structuré couvrant mathématiques, sciences, programmation et puzzles. Utilisé pour affiner et tester les modèles OpenThinker.

Télécharger le dataset
Taille

114 000 exemples au format JSON (problèmes, solutions, raisonnements, code), données prêtes à l'entraînement

Licence

Apache 2.0

Description

OpenThoughts-114k est un jeu de données de raisonnement génératif rassemblant 114 000 exemples de haute qualité. Chaque entrée comprend un problème, une solution de référence, un raisonnement intermédiaire, et parfois du code. Le dataset couvre divers domaines comme les mathématiques, les sciences, l’informatique et les énigmes, et il a été utilisé pour entraîner les modèles OpenThinker (7B et 32B).

À quoi sert ce dataset ?

  • Entraîner des modèles à effectuer des raisonnements multi-étapes
  • Créer des benchmarks pour tester des modèles LLM sur des tâches STEM
  • Améliorer la performance des modèles sur des cas complexes via fine-tuning

Peut-on l’enrichir ou l’améliorer ?

Oui, il est possible d’ajouter des annotations sur les étapes de raisonnement, de classer les problèmes par difficulté, ou encore de générer des variantes de questions. Le dataset peut également être combiné à d'autres ressources pour créer des ensembles multilingues ou multi-domaines.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐⭐ (Directement exploitable pour l'entraînement)
🧼Besoin de nettoyage ⭐⭐⭐⭐⭐ (Faible — données bien structurées)
🏷️Richesse des annotations ⭐⭐⭐⭐⭐ (Complète – solutions, raisonnements, métadonnées)
📜Licence commerciale ✅ Oui (Apache 2.0)
👨‍💻Idéal pour les débutants 🧑‍🎓 Oui, avec une base technique minimale
🔁Réutilisable en fine-tuning 🔥 Excellent pour modèles STEM ou reasoning
🌍Diversité culturelle 🌍 Modérée — contenu technique, peu culturel

🧠 Recommandé pour

  • Ingénieurs IA
  • Chercheurs en NLP
  • Créateurs de modèles de raisonnement

🔧 Outils compatibles

  • Transformers
  • Evalchemy
  • Jupyter
  • LoRA
  • Curator Viewer

💡 Astuce

Utilisez le sous-ensemble "metadata" pour des tâches de recherche sur les stratégies de raisonnement ou d’explicabilité.

Questions fréquemment posées

Ce dataset inclut-il des raisonnements étape par étape ?

Oui, chaque exemple contient un raisonnement intermédiaire généré par modèle, facilitant l’analyse fine des processus cognitifs simulés.

Peut-on utiliser ce dataset pour des modèles de génération de code ?

Oui, une partie du dataset contient du code avec des cas de test et du starter code, idéal pour le fine-tuning sur des tâches de codage.

Est-il possible d’isoler les exemples par domaine (math, science, etc.) ?

Oui, chaque exemple est annoté avec un champ "domain" permettant un filtrage thématique précis selon le type de problème.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.