En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
OpenAI HumanEval
Texte

OpenAI HumanEval

OpenAI HumanEval est un dataset d’évaluation dédié à la génération de code en Python. Il contient 164 problèmes avec signature de fonction, docstring explicative, solution canonique et tests unitaires. Ce jeu de données a été créé manuellement pour garantir qu’il ne figure pas dans les corpus d’entraînement des modèles, permettant ainsi une évaluation fiable.

Télécharger le dataset
Taille

164 exemples, code Python avec docstrings, tests unitaires, format JSON

Licence

MIT

Description

Le dataset OpenAI HumanEval comprend 164 problèmes de programmation Python. Chaque exemple contient la signature d’une fonction, un docstring décrivant le comportement attendu, le corps de la solution canonique, ainsi que des tests unitaires permettant de valider le code généré. Ce dataset est conçu pour évaluer les capacités des modèles à générer du code correct et fonctionnel.

À quoi sert ce dataset ?

  • Évaluer la qualité des modèles de génération automatique de code Python.
  • Servir de base pour le fine-tuning de modèles spécialisés en programmation.
  • Tester la robustesse des modèles dans la compréhension et la production de fonctions complexes.

Peut-on l’enrichir ou l’améliorer ?

Oui, il est possible d’ajouter de nouveaux problèmes ou d’étendre les tests unitaires pour couvrir davantage de cas. On peut aussi diversifier les langages ou augmenter la complexité des tâches pour un entraînement plus poussé.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐⭐ (dataset simple et prêt à l’emploi)
🧼Besoin de nettoyage ⭐⭐⭐⭐⭐ (aucun nettoyage nécessaire)
🏷️Richesse des annotations ⭐⭐⭐⭐☆ (bonne : tests unitaires et docstrings explicites)
📜Licence commerciale ✅ Oui (MIT)
👨‍💻Idéal pour les débutants 👍 Oui, facile à utiliser même pour débutants
🔁Réutilisable en fine-tuning 🔥 Adapté pour fine-tuning et évaluation de modèles code
🌍Diversité culturelle ⚠️ Contenu anglophone, limité au langage Python

🧠 Recommandé pour

  • Chercheurs NLP/code
  • Développeurs IA
  • Educateurs en programmation

🔧 Outils compatibles

  • Frameworks ML classiques
  • Environnement Python
  • Notebooks Jupyter

💡 Astuce

Toujours exécuter le code généré dans un environnement sécurisé pour éviter les risques liés à l’exécution de code arbitraire.

Questions fréquemment posées

Quelle est la particularité principale du dataset HumanEval ?

Il contient des problèmes de programmation conçus manuellement pour ne pas apparaître dans les données d’entraînement, assurant ainsi une évaluation juste des modèles de génération de code.

Combien d’exemples contient ce dataset ?

Il comprend 164 exemples de problèmes de programmation Python avec tests unitaires.

Est-il possible d’ajouter ses propres problèmes à HumanEval ?

Oui, le dataset peut être enrichi avec de nouveaux problèmes ou tests, ce qui permet d’adapter la difficulté et la diversité des tâches.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.