Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
OpenAI HumanEval
Texto

OpenAI HumanEval

OpenAI HumanEval es un conjunto de datos de evaluación dedicado a la generación de código en Python. Contiene 164 problemas relacionados con la firma de funciones, la cadena de documentación explicativa, la solución canónica y las pruebas unitarias. Este conjunto de datos se creó manualmente para garantizar que no figurara en los corpus de formación del modelo, lo que permite una evaluación fiable.

Obtén el dataset
Tamaño

164 ejemplos, código Python con cadenas de documentación, pruebas unitarias, formato JSON

Licencia

MIT

Descripción

El conjunto de datos OpenAI HumanEval incluye 164 problemas de programación en Python. Cada ejemplo contiene la firma de una función, una cadena de documentos que describe el comportamiento esperado, el cuerpo de la solución canónica y pruebas unitarias para validar el código generado. Este conjunto de datos está diseñado para evaluar la capacidad de los modelos para generar un código correcto y funcional.

¿Para qué sirve este conjunto de datos?

  • Evalúe la calidad de los modelos para generar código Python automáticamente.
  • Sirven de base para ajustar los modelos de programación especializados.
  • Pruebe la solidez de los modelos para comprender y producir funciones complejas.

¿Se puede enriquecer o mejorar?

Sí, es posible añadir nuevos problemas o ampliar las pruebas unitarias para cubrir más casos. También puedes diversificar los idiomas o aumentar la complejidad de las tareas para una formación más avanzada.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐⭐ (dataset simple y listo para usar)
🧼Necesidad de limpieza ⭐⭐⭐⭐⭐ (ninguna limpieza necesaria)
🏷️Riqueza de las anotaciones ⭐⭐⭐⭐☆ (buena: tests unitarios y docstrings explícitos)
📜Licencia comercial ✅ Sí (MIT)
👨‍💻Ideal para principiantes 👍 Sí, fácil de usar incluso para principiantes
🔁Reutilizable para fine-tuning 🔥 Adecuado para fine-tuning y evaluación de modelos de código
🌍Diversidad cultural ⚠️ Contenido en inglés, limitado al lenguaje Python

🧠 Recomendado para

  • Investigadores de PNL y código
  • Desarrolladores de IA
  • Educadores de programación.

🔧 Herramientas compatibles

  • Frameworks de ML clásicos
  • Entorno Python
  • Cuadernos Jupyter.

💡 Consejo

Ejecute siempre el código generado en un entorno seguro para evitar los riesgos asociados con la ejecución de código arbitrario.

Preguntas frecuentes

¿Cuál es la principal particularidad del conjunto de datos de HumanEval?

Contiene problemas de programación que se diseñan manualmente para que no aparezcan en los datos de entrenamiento, lo que garantiza una evaluación justa de los modelos de generación de código.

¿Cuántos ejemplos contiene este conjunto de datos?

Incluye 164 ejemplos de problemas de programación en Python con pruebas unitarias.

¿Es posible añadir sus propios problemas a HumanEval?

Sí, el conjunto de datos se puede enriquecer con nuevos problemas o pruebas, lo que permite adaptar la dificultad y la diversidad de las tareas.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.