Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
OpenMathReasoning
Texto

OpenMathReasoning

Un corpus completo para la resolución matemática avanzada, que combina cadenas de razonamiento, selección de generaciones y herramientas de inferencia integradas.

Obtén el dataset
Tamaño

3,2 millones de soluciones CoT, 1,7 millones de soluciones TIR, 566 000 GenSelect, solo 193 000 declaraciones; datos textuales estructurados en JSON

Licencia

CC-BY 4.0

Descripción

Razonamiento matemático abierto es un conjunto de datos de razonamiento matemático a gran escala diseñado para entrenar modelos lingüísticos para resolver problemas complejos de los foros de AoPS. Incluye más de 306 000 afirmaciones únicas, con varios millones de soluciones generadas mediante diversas estrategias: cadenas de pensamiento (CoT), razonamiento con herramientas integradas (TIR) y selección automática de las mejores respuestas (GenSelect). El conjunto de datos está estructurado, validado y va acompañado de una gran cantidad de metadatos (modelo generador, tasa de éxito, etc.).

¿Para qué sirve este conjunto de datos?

  • Entrene modelos de razonamiento matemático eficientes capaces de resolver problemas de nivel olímpico
  • Pruebe varios enfoques: CoT, TIR, mayoría de votos, etc.
  • Optimiza la formación de LLMs especializados en STEM o aplicaciones educativas

¿Se puede enriquecer o mejorar?

Sí, es posible añadir anotaciones humanas para las respuestas generadas, integrar otros corpus matemáticos (por ejemplo, MATH, miniF2F) o estructurar los problemas por tema o nivel. El conjunto de datos también se puede utilizar como base para nuevos puntos de referencia o para modelos de formación en otros idiomas con una traducción adaptada.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐☆☆ (Datos ricos pero técnicos de manejar)
🧼Necesidad de limpieza ⭐⭐⭐⭐☆ (Baja – Alta calidad, bien formateado)
🏷️Riqueza de las anotaciones ⭐⭐⭐⭐⭐ (Excepcional: CoT, TIR, selección, tasa de éxito)
📜Licencia comercial ✅ Sí (CC-BY 4.0)
👨‍💻Ideal para principiantes ❌ No realmente – Alta complejidad matemática
🔁Reutilizable en fine-tuning 🔥 Excelente para SFT, RLHF, destilación
🌍Diversidad cultural ⚠️ Baja – Problemas provenientes de un único corpus de habla inglesa

🧠 Recomendado para

  • Investigadores de IA matemática
  • Desarrolladores LLM STEM
  • Concursos educativos de IA

🔧 Herramientas compatibles

  • PyTorch
  • Cara abrazada
  • Velocidad profunda
  • Transformers, VllM

💡 Consejos

Filtre los problemas por dificultad o tasa de éxito para adaptar mejor la capacitación a la capacidad del modelo.

Preguntas frecuentes

¿El conjunto de datos cubre todos los tipos de problemas matemáticos?

Cubre una amplia variedad, pero sobre todo de los foros de AoPS. Los problemas estándar se adaptan a las competiciones y al razonamiento avanzado.

¿Podemos filtrar los datos según el tipo de razonamiento utilizado?

Sí, cada ejemplo indica el modo de inferencia: CoT (cadena de pensamiento), TIR (con herramientas) o GenSelect (selección de respuestas).

¿Es adecuado para realizar ajustes sin GPU de gama alta?

Se explota mejor con recursos potentes, pero algunos subconjuntos se pueden usar con cuantificación o LoRa.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.