OpenAI HumanEval
OpenAI HumanEval est un dataset d’évaluation dédié à la génération de code en Python. Il contient 164 problèmes avec signature de fonction, docstring explicative, solution canonique et tests unitaires. Ce jeu de données a été créé manuellement pour garantir qu’il ne figure pas dans les corpus d’entraînement des modèles, permettant ainsi une évaluation fiable.
164 exemples, code Python avec docstrings, tests unitaires, format JSON
MIT
Description
Le dataset OpenAI HumanEval comprend 164 problèmes de programmation Python. Chaque exemple contient la signature d’une fonction, un docstring décrivant le comportement attendu, le corps de la solution canonique, ainsi que des tests unitaires permettant de valider le code généré. Ce dataset est conçu pour évaluer les capacités des modèles à générer du code correct et fonctionnel.
À quoi sert ce dataset ?
- Évaluer la qualité des modèles de génération automatique de code Python.
- Servir de base pour le fine-tuning de modèles spécialisés en programmation.
- Tester la robustesse des modèles dans la compréhension et la production de fonctions complexes.
Peut-on l’enrichir ou l’améliorer ?
Oui, il est possible d’ajouter de nouveaux problèmes ou d’étendre les tests unitaires pour couvrir davantage de cas. On peut aussi diversifier les langages ou augmenter la complexité des tâches pour un entraînement plus poussé.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs NLP/code
- Développeurs IA
- Educateurs en programmation
🔧 Outils compatibles
- Frameworks ML classiques
- Environnement Python
- Notebooks Jupyter
💡 Astuce
Toujours exécuter le code généré dans un environnement sécurisé pour éviter les risques liés à l’exécution de code arbitraire.
Questions fréquemment posées
Quelle est la particularité principale du dataset HumanEval ?
Il contient des problèmes de programmation conçus manuellement pour ne pas apparaître dans les données d’entraînement, assurant ainsi une évaluation juste des modèles de génération de code.
Combien d’exemples contient ce dataset ?
Il comprend 164 exemples de problèmes de programmation Python avec tests unitaires.
Est-il possible d’ajouter ses propres problèmes à HumanEval ?
Oui, le dataset peut être enrichi avec de nouveaux problèmes ou tests, ce qui permet d’adapter la difficulté et la diversité des tâches.