OpenAI HumanEval

OpenAI HumanEval es un conjunto de datos de evaluación dedicado a la generación de código en Python. Contiene 164 problemas relacionados con la firma de funciones, la cadena de documentación explicativa, la solución canónica y las pruebas unitarias. Este conjunto de datos se creó manualmente para garantizar que no figurara en los corpus de formación del modelo, lo que permite una evaluación fiable.

Obtén el dataset

Tamaño

164 ejemplos, código Python con cadenas de documentación, pruebas unitarias, formato JSON

Licencia

MIT

Descripción

‍

El conjunto de datos OpenAI HumanEval incluye 164 problemas de programación en Python. Cada ejemplo contiene la firma de una función, una cadena de documentos que describe el comportamiento esperado, el cuerpo de la solución canónica y pruebas unitarias para validar el código generado. Este conjunto de datos está diseñado para evaluar la capacidad de los modelos para generar un código correcto y funcional.

‍

¿Para qué sirve este conjunto de datos?

‍

Evalúe la calidad de los modelos para generar código Python automáticamente.
Sirven de base para ajustar los modelos de programación especializados.
Pruebe la solidez de los modelos para comprender y producir funciones complejas.

‍

¿Se puede enriquecer o mejorar?

‍

Sí, es posible añadir nuevos problemas o ampliar las pruebas unitarias para cubrir más casos. También puedes diversificar los idiomas o aumentar la complejidad de las tareas para una formación más avanzada.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐⭐ (dataset simple y listo para usar)
🧼Necesidad de limpieza	⭐⭐⭐⭐⭐ (ninguna limpieza necesaria)
🏷️Riqueza de las anotaciones	⭐⭐⭐⭐☆ (buena: tests unitarios y docstrings explícitos)
📜Licencia comercial	✅ Sí (MIT)
👨‍💻Ideal para principiantes	👍 Sí, fácil de usar incluso para principiantes
🔁Reutilizable para fine-tuning	🔥 Adecuado para fine-tuning y evaluación de modelos de código
🌍Diversidad cultural	⚠️ Contenido en inglés, limitado al lenguaje Python

‍

🧠 Recomendado para

Investigadores de PNL y código
Desarrolladores de IA
Educadores de programación.

‍

🔧 Herramientas compatibles

Frameworks de ML clásicos
Entorno Python
Cuadernos Jupyter.

‍

💡 Consejo

Ejecute siempre el código generado en un entorno seguro para evitar los riesgos asociados con la ejecución de código arbitrario.

Preguntas frecuentes

¿Cuál es la principal particularidad del conjunto de datos de HumanEval?

Contiene problemas de programación que se diseñan manualmente para que no aparezcan en los datos de entrenamiento, lo que garantiza una evaluación justa de los modelos de generación de código.

¿Cuántos ejemplos contiene este conjunto de datos?

Incluye 164 ejemplos de problemas de programación en Python con pruebas unitarias.

¿Es posible añadir sus propios problemas a HumanEval?

Sí, el conjunto de datos se puede enriquecer con nuevos problemas o pruebas, lo que permite adaptar la dificultad y la diversidad de las tareas.

Otros datasets

Texto

Synthetic Clinical Notes Embedded

Texto

LexGLUE

Imagen

Conjunto de datos de Fashionpedia