OpenAI HumanEval
OpenAI HumanEval es un conjunto de datos de evaluación dedicado a la generación de código en Python. Contiene 164 problemas relacionados con la firma de funciones, la cadena de documentación explicativa, la solución canónica y las pruebas unitarias. Este conjunto de datos se creó manualmente para garantizar que no figurara en los corpus de formación del modelo, lo que permite una evaluación fiable.
164 ejemplos, código Python con cadenas de documentación, pruebas unitarias, formato JSON
MIT
Descripción
El conjunto de datos OpenAI HumanEval incluye 164 problemas de programación en Python. Cada ejemplo contiene la firma de una función, una cadena de documentos que describe el comportamiento esperado, el cuerpo de la solución canónica y pruebas unitarias para validar el código generado. Este conjunto de datos está diseñado para evaluar la capacidad de los modelos para generar un código correcto y funcional.
¿Para qué sirve este conjunto de datos?
- Evalúe la calidad de los modelos para generar código Python automáticamente.
- Sirven de base para ajustar los modelos de programación especializados.
- Pruebe la solidez de los modelos para comprender y producir funciones complejas.
¿Se puede enriquecer o mejorar?
Sí, es posible añadir nuevos problemas o ampliar las pruebas unitarias para cubrir más casos. También puedes diversificar los idiomas o aumentar la complejidad de las tareas para una formación más avanzada.
🔎 En resumen
🧠 Recomendado para
- Investigadores de PNL y código
- Desarrolladores de IA
- Educadores de programación.
🔧 Herramientas compatibles
- Frameworks de ML clásicos
- Entorno Python
- Cuadernos Jupyter.
💡 Consejo
Ejecute siempre el código generado en un entorno seguro para evitar los riesgos asociados con la ejecución de código arbitrario.
Preguntas frecuentes
¿Cuál es la principal particularidad del conjunto de datos de HumanEval?
Contiene problemas de programación que se diseñan manualmente para que no aparezcan en los datos de entrenamiento, lo que garantiza una evaluación justa de los modelos de generación de código.
¿Cuántos ejemplos contiene este conjunto de datos?
Incluye 164 ejemplos de problemas de programación en Python con pruebas unitarias.
¿Es posible añadir sus propios problemas a HumanEval?
Sí, el conjunto de datos se puede enriquecer con nuevos problemas o pruebas, lo que permite adaptar la dificultad y la diversidad de las tareas.