MixInstruct – Comparaison multi-LLM sur réponses d'instructions
Jeu de données massif contenant des réponses issues de 11 LLMs sur des instructions variées. Inclut des scores automatiques de qualité (BLEU, ROUGE, BERTScore, BARTScore) ainsi que des comparaisons pair-à-pair évaluées par ChatGPT. Ressource idéale pour entraîner, comparer ou améliorer des modèles de langage.
Description
MixInstruct est un jeu de données de 110'000 exemples composé de réponses générées par 11 modèles de langage open-source populaires, à partir d’un ensemble commun d’instructions. Pour chaque réponse, plusieurs métriques automatiques sont fournies (BLEU, ROUGE, BERTScore, BARTScore), ainsi que des comparaisons pairées réalisées par ChatGPT sur un sous-ensemble de plus de 4 700 exemples.
À quoi sert ce dataset ?
- Comparer les performances des modèles LLM sur des tâches de suivi d'instructions
- Former ou évaluer des modèles génératifs multi-sources
- Créer un benchmark cohérent d’instruction-following pour des LLMs open source
Peut-on l’enrichir ou l’améliorer ?
Oui, ce dataset peut être enrichi avec de nouveaux modèles, de nouvelles instructions ou d'autres métriques (ex. : human eval, score de toxicité). Il est aussi possible d’ajouter des métadonnées comme la durée de génération, les paramètres du modèle ou le coût d’inférence.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en NLP
- Développeurs de LLMs
- Évaluateurs d'IA générative
🔧 Outils compatibles
- Transformers
- OpenChat
- DeepEval
- LangChain
- Pandas
💡 Astuce
Filtrer les exemples selon la variance des scores pour créer un sous-ensemble difficile (hard set) à des fins d’évaluation fine.
Questions fréquemment posées
Ce dataset inclut-il des réponses générées par GPT-4 ?
Non, il inclut des comparaisons évaluées par GPT-4, mais les réponses proviennent de 11 autres modèles open-source.
Puis-je utiliser ce dataset pour entraîner un nouveau LLM ?
Oui, il peut servir pour du fine-tuning ou de la distillation multi-références, notamment sur des tâches de suivi d'instruction.
Les métriques sont-elles calculées automatiquement ou manuellement ?
Les scores comme BLEU ou ROUGE sont automatiques, mais les comparaisons pairées sont obtenues via évaluation GPT-4 (prompt ChatGPT).




