MixInstruct – Comparaison multi-LLM sur réponses d'instructions

Jeu de données massif contenant des réponses issues de 11 LLMs sur des instructions variées. Inclut des scores automatiques de qualité (BLEU, ROUGE, BERTScore, BARTScore) ainsi que des comparaisons pair-à-pair évaluées par ChatGPT. Ressource idéale pour entraîner, comparer ou améliorer des modèles de langage.

Télécharger le dataset

Taille

110'000 exemples en Parquet (582 Mo)

Licence

MIT

Description

‍

MixInstruct est un jeu de données de 110'000 exemples composé de réponses générées par 11 modèles de langage open-source populaires, à partir d’un ensemble commun d’instructions. Pour chaque réponse, plusieurs métriques automatiques sont fournies (BLEU, ROUGE, BERTScore, BARTScore), ainsi que des comparaisons pairées réalisées par ChatGPT sur un sous-ensemble de plus de 4 700 exemples.

‍

À quoi sert ce dataset ?

‍

Comparer les performances des modèles LLM sur des tâches de suivi d'instructions
Former ou évaluer des modèles génératifs multi-sources
Créer un benchmark cohérent d’instruction-following pour des LLMs open source

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, ce dataset peut être enrichi avec de nouveaux modèles, de nouvelles instructions ou d'autres métriques (ex. : human eval, score de toxicité). Il est aussi possible d’ajouter des métadonnées comme la durée de génération, les paramètres du modèle ou le coût d’inférence.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐⭐ (Format simple à manipuler, Parquet)
🧼Besoin de nettoyage	⭐⭐⭐☆☆ (données déjà bien structurées)
🏷️Richesse des annotations	⭐⭐⭐⭐⭐ (scores + comparaisons pairées)
📜Licence commerciale	✅ Oui (MIT)
👨‍💻Idéal pour les débutants	🧠 Accessible avec quelques notions en NLP
🔁Réutilisable en fine-tuning	🔥 Parfait pour le tuning de modèles d’instructions
🌍Diversité culturelle	🌐 Principalement en anglais, mais généralisable