OpenAI HumanEval

OpenAI HumanEval est un dataset d’évaluation dédié à la génération de code en Python. Il contient 164 problèmes avec signature de fonction, docstring explicative, solution canonique et tests unitaires. Ce jeu de données a été créé manuellement pour garantir qu’il ne figure pas dans les corpus d’entraînement des modèles, permettant ainsi une évaluation fiable.

Télécharger le dataset

Taille

164 exemples, code Python avec docstrings, tests unitaires, format JSON

Licence

MIT

Description

‍

Le dataset OpenAI HumanEval comprend 164 problèmes de programmation Python. Chaque exemple contient la signature d’une fonction, un docstring décrivant le comportement attendu, le corps de la solution canonique, ainsi que des tests unitaires permettant de valider le code généré. Ce dataset est conçu pour évaluer les capacités des modèles à générer du code correct et fonctionnel.

‍

À quoi sert ce dataset ?

‍

Évaluer la qualité des modèles de génération automatique de code Python.
Servir de base pour le fine-tuning de modèles spécialisés en programmation.
Tester la robustesse des modèles dans la compréhension et la production de fonctions complexes.

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’ajouter de nouveaux problèmes ou d’étendre les tests unitaires pour couvrir davantage de cas. On peut aussi diversifier les langages ou augmenter la complexité des tâches pour un entraînement plus poussé.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐⭐ (dataset simple et prêt à l’emploi)
🧼Besoin de nettoyage	⭐⭐⭐⭐⭐ (aucun nettoyage nécessaire)
🏷️Richesse des annotations	⭐⭐⭐⭐☆ (bonne : tests unitaires et docstrings explicites)
📜Licence commerciale	✅ Oui (MIT)
👨‍💻Idéal pour les débutants	👍 Oui, facile à utiliser même pour débutants
🔁Réutilisable en fine-tuning	🔥 Adapté pour fine-tuning et évaluation de modèles code
🌍Diversité culturelle	⚠️ Contenu anglophone, limité au langage Python

‍

🧠 Recommandé pour

Chercheurs NLP/code
Développeurs IA
Educateurs en programmation

‍

🔧 Outils compatibles

Frameworks ML classiques
Environnement Python
Notebooks Jupyter

‍

💡 Astuce

Toujours exécuter le code généré dans un environnement sécurisé pour éviter les risques liés à l’exécution de code arbitraire.

Questions fréquemment posées

Quelle est la particularité principale du dataset HumanEval ?

Il contient des problèmes de programmation conçus manuellement pour ne pas apparaître dans les données d’entraînement, assurant ainsi une évaluation juste des modèles de génération de code.

Combien d’exemples contient ce dataset ?

Il comprend 164 exemples de problèmes de programmation Python avec tests unitaires.

Est-il possible d’ajouter ses propres problèmes à HumanEval ?

Oui, le dataset peut être enrichi avec de nouveaux problèmes ou tests, ce qui permet d’adapter la difficulté et la diversité des tâches.

Datasets similaires

LexGLUE

US Census Dataset

Resume Dataset