Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
GSM8K Platinum
Texto

GSM8K Platinum

Una versión mejorada del conjunto de datos GSM8K, que contiene 1209 problemas matemáticos de escuela primaria cuidadosamente revisados. Los ejemplos mal etiquetados o ambiguos se han eliminado o corregido a fin de proporcionar una base fiable para evaluar el razonamiento matemático de los modelos lingüísticos.

Obtén el dataset
Tamaño

1.209 problemas matemáticos textuales con solución explicada, formato JSON

Licencia

MIT

Descripción

GSM8K Platinum es una versión premium del famoso corpus de problemas matemáticos de la escuela primaria. Cada afirmación va acompañada de una solución detallada que utiliza un razonamiento paso a paso. A diferencia de la versión original, los ejemplos se han revisado cuidadosamente para eliminar cualquier ambigüedad o error de anotación. Por lo tanto, el conjunto de datos permite una evaluación precisa y confiable de las capacidades de razonamiento matemático de los modelos lingüísticos.

¿Para qué sirve este conjunto de datos?

  • Punto de referencia preciso de los modelos lingüísticos sobre el razonamiento aritmético
  • Formación de modelos especializados en matemáticas textuales
  • Evaluación comparativa entre arquitecturas de LLMs (GPT, Claude, Mistral...)

¿Se puede enriquecer o mejorar?

Sí, aunque el conjunto de datos ya está filtrado y limpiado, es posible completarlo con formulaciones variantes o traducciones a otros idiomas. Cada pregunta también se puede enriquecer con anotaciones adicionales (dificultad, tipo de operación, número de pasos).

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (Estructura JSON simple y lista para usar)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Ninguno – datos ya limpiados manualmente)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐⭐ (Razonamiento paso a paso con lógica formal)
📜 Licencia comercial✅ Sí (MIT)
👨‍💻 Ideal para principiantes🌟 Sí, fácil de manipular para tareas supervisadas
🔁 Reutilizable para fine-tuning🎯 Muy útil para tareas de razonamiento supervisado
🌍 Diversidad cultural⚠️ Limitado – contenido centrado en formatos escolares de EE.UU.

🧠 Recomendado para

  • Investigadores de IA
  • Desarrolladores asistentes educativos
  • Especialistas en puesta a punto

🔧 Herramientas compatibles

  • Hugging Face Datasets
  • OpenLLM
  • LangChain
  • Parsers JSON
  • LoRA

💡 Consejo

Para adaptarlo a un contexto francófono, puede traducir las declaraciones y luego comparar los resultados en ambas versiones para probar la solidez de sus modelos.

Preguntas frecuentes

¿Cuál es la diferencia entre el GSM8K y el GSM8K-Platinum?

GSM8K-Platinum es una versión simplificada del juego de prueba GSM8K: corrige errores, elimina declaraciones ambiguas y mejora la calidad general de los datos.

¿Se puede entrenar un modelo solo con GSM8K-Platinum?

Este conjunto de datos está destinado principalmente a la evaluación. Para el entrenamiento, se recomienda usarlo además de juegos más grandes.

¿El conjunto de datos es adecuado para la enseñanza o la pedagogía?

Sí, se puede utilizar como base de ejercicios o entrenamiento para asistentes educativos y plataformas de aprendizaje automático.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.