OpenThoughts 114k

Corpus de razonamiento estructurado que abarca matemáticas, ciencias, programación y acertijos. Se usa para refinar y probar modelos de OpenThinker.

Obtén el dataset

Tamaño

114 000 ejemplos en formato JSON (problemas, soluciones, razonamiento, código), datos listos para ser entrenados

Licencia

Apache 2.0

Descripción

‍

OpenThoughts 114k es un conjunto de datos de razonamiento generativo con 114 000 ejemplos de alta calidad. Cada entrada incluye un problema, una solución de referencia, un razonamiento intermedio y, a veces, código. El conjunto de datos abarca una variedad de campos, como las matemáticas, las ciencias, la informática y los acertijos, y se ha utilizado para entrenar los modelos de OpenThinker (7B y 32B).

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene modelos para hacer un razonamiento en varias etapas
Cree puntos de referencia para probar modelos de LLM en tareas STEM
Mejorar el rendimiento de los modelos en casos complejos mediante el ajuste fino

‍

¿Se puede enriquecer o mejorar?

‍

Sí, es posible añadir anotaciones en las etapas del razonamiento, clasificar los problemas por dificultad o generar variantes de preguntas. El conjunto de datos también se puede combinar con otros recursos para crear conjuntos multilingües o multidominio.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐⭐ (Listo para usar en entrenamiento)
🧼Necesidad de limpieza	⭐⭐⭐⭐⭐ (Baja — datos bien estructurados)
🏷️Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Completa — soluciones, razonamientos, metadatos)
📜Licencia comercial	✅ Sí (Apache 2.0)
👨‍💻Amigable para principiantes	🧑‍🎓 Sí, con conocimientos técnicos mínimos
🔁Reutilizable para fine-tuning	🔥 Excelente para modelos STEM o de razonamiento
🌍Diversidad cultural	🌍 Moderada — contenido técnico, poca diversidad cultural

‍

🧠 Recomendado para

Ingenieros de IA
Investigadores de PNL
Creadores de modelos de razonamiento

‍

🔧 Herramientas compatibles

Transformers
Evalchemy
Jupyter
LoRA
Curator Viewer

‍

💡 Consejo

Utilice el subconjunto de «metadatos» para las tareas de investigación sobre estrategias de razonamiento o explicabilidad.

Preguntas frecuentes

¿Este conjunto de datos incluye un razonamiento paso a paso?

Sí, cada ejemplo contiene un razonamiento intermedio generado por un modelo, lo que facilita el análisis detallado de los procesos cognitivos simulados.

¿Se puede usar este conjunto de datos para modelos de generación de código?

Sí, parte del conjunto de datos contiene código con casos de prueba y código de inicio, ideal para ajustar las tareas de codificación.

¿Es posible aislar los ejemplos por campo (matemáticas, ciencias, etc.)?

Sí, cada ejemplo está anotado con un campo de «dominio» que permite un filtrado temático preciso según el tipo de problema.

Otros datasets

GLUE Benchmark

GigaSpeech

Road Damage Detection Dataset