En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
GSM8K Platinum
Texte

GSM8K Platinum

Version améliorée du dataset GSM8K, contenant 1 209 problèmes mathématiques de niveau primaire soigneusement révisés. Les exemples mal étiquetés ou ambigus ont été supprimés ou corrigés, afin de fournir une base fiable pour l'évaluation du raisonnement mathématique des modèles de langage.

Télécharger le dataset
Taille

1 209 problèmes de mathématiques textuels avec solution expliquée, format JSON

Licence

MIT

Description

GSM8K-Platinum est une version premium du célèbre corpus de problèmes mathématiques de niveau primaire. Chaque énoncé est accompagné d’une solution détaillée utilisant un raisonnement pas à pas. Contrairement à la version originale, les exemples ont été soigneusement revus pour éliminer toute ambiguïté ou erreur d’annotation. Le dataset permet ainsi une évaluation fine et fiable des capacités de raisonnement mathématique des modèles de langage.

À quoi sert ce dataset ?

  • Benchmark précis des modèles de langage sur le raisonnement arithmétique
  • Entraînement de modèles spécialisés en mathématiques textuelles
  • Évaluation comparative entre architectures LLMs (GPT, Claude, Mistral...)

Peut-on l’enrichir ou l’améliorer ?

Oui, bien que le dataset soit déjà filtré et nettoyé, il est possible de le compléter par des variantes de formulation ou des traductions vers d’autres langues. On peut également enrichir chaque question par des annotations supplémentaires (difficulté, type d’opération, nombre d’étapes).

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Structure JSON simple et prête à l’emploi)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Aucun – données déjà nettoyées manuellement)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Raisonnement pas à pas avec logique formelle)
📜 Licence commerciale✅ Oui (MIT)
👨‍💻 Idéal pour les débutants🌟 Oui, simple à manipuler pour des tâches supervisées
🔁 Réutilisable en fine-tuning🎯 Très utile pour des tâches de reasoning supervisé
🌍 Diversité culturelle⚠️ Limité – contenu centré sur des formats scolaires US

🧠 Recommandé pour

  • Chercheurs en IA
  • Développeurs d’assistants éducatifs
  • Spécialistes du fine-tuning

🔧 Outils compatibles

  • Hugging Face Datasets
  • OpenLLM
  • LangChain
  • JSON parsers
  • LoRA

💡 Astuce

Pour l’adapter à un contexte francophone, vous pouvez traduire les énoncés puis comparer les résultats sur les deux versions pour tester la robustesse de vos modèles.

Questions fréquemment posées

Quelle est la différence entre GSM8K et GSM8K-Platinum ?

GSM8K-Platinum est une version épurée du jeu de test de GSM8K : elle corrige les erreurs, supprime les énoncés ambigus et améliore la qualité globale des données.

Peut-on entraîner un modèle uniquement avec GSM8K-Platinum ?

Ce dataset est surtout destiné à l’évaluation. Pour l’entraînement, il est recommandé de l’utiliser en complément de jeux plus volumineux.

Le dataset est-il adapté à l’enseignement ou la pédagogie ?

Oui, il peut servir de base d’exercices ou d’entraînement pour des assistants éducatifs et plateformes d’apprentissage automatisé.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.