Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
OpenThoughts 114k
Texto

OpenThoughts 114k

Corpus de razonamiento estructurado que abarca matemáticas, ciencias, programación y acertijos. Se usa para refinar y probar modelos de OpenThinker.

Obtén el dataset
Tamaño

114 000 ejemplos en formato JSON (problemas, soluciones, razonamiento, código), datos listos para ser entrenados

Licencia

Apache 2.0

Descripción

OpenThoughts 114k es un conjunto de datos de razonamiento generativo con 114 000 ejemplos de alta calidad. Cada entrada incluye un problema, una solución de referencia, un razonamiento intermedio y, a veces, código. El conjunto de datos abarca una variedad de campos, como las matemáticas, las ciencias, la informática y los acertijos, y se ha utilizado para entrenar los modelos de OpenThinker (7B y 32B).

¿Para qué sirve este conjunto de datos?

  • Entrene modelos para hacer un razonamiento en varias etapas
  • Cree puntos de referencia para probar modelos de LLM en tareas STEM
  • Mejorar el rendimiento de los modelos en casos complejos mediante el ajuste fino

¿Se puede enriquecer o mejorar?

Sí, es posible añadir anotaciones en las etapas del razonamiento, clasificar los problemas por dificultad o generar variantes de preguntas. El conjunto de datos también se puede combinar con otros recursos para crear conjuntos multilingües o multidominio.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐⭐ (Listo para usar en entrenamiento)
🧼Necesidad de limpieza ⭐⭐⭐⭐⭐ (Baja — datos bien estructurados)
🏷️Riqueza de anotaciones ⭐⭐⭐⭐⭐ (Completa — soluciones, razonamientos, metadatos)
📜Licencia comercial ✅ Sí (Apache 2.0)
👨‍💻Amigable para principiantes 🧑‍🎓 Sí, con conocimientos técnicos mínimos
🔁Reutilizable para fine-tuning 🔥 Excelente para modelos STEM o de razonamiento
🌍Diversidad cultural 🌍 Moderada — contenido técnico, poca diversidad cultural

🧠 Recomendado para

  • Ingenieros de IA
  • Investigadores de PNL
  • Creadores de modelos de razonamiento

🔧 Herramientas compatibles

  • Transformers
  • Evalchemy
  • Jupyter
  • LoRA
  • Curator Viewer

💡 Consejo

Utilice el subconjunto de «metadatos» para las tareas de investigación sobre estrategias de razonamiento o explicabilidad.

Preguntas frecuentes

¿Este conjunto de datos incluye un razonamiento paso a paso?

Sí, cada ejemplo contiene un razonamiento intermedio generado por un modelo, lo que facilita el análisis detallado de los procesos cognitivos simulados.

¿Se puede usar este conjunto de datos para modelos de generación de código?

Sí, parte del conjunto de datos contiene código con casos de prueba y código de inicio, ideal para ajustar las tareas de codificación.

¿Es posible aislar los ejemplos por campo (matemáticas, ciencias, etc.)?

Sí, cada ejemplo está anotado con un campo de «dominio» que permite un filtrado temático preciso según el tipo de problema.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.