En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
MixInstruct – Comparaison multi-LLM sur réponses d'instructions
Texte

MixInstruct – Comparaison multi-LLM sur réponses d'instructions

Jeu de données massif contenant des réponses issues de 11 LLMs sur des instructions variées. Inclut des scores automatiques de qualité (BLEU, ROUGE, BERTScore, BARTScore) ainsi que des comparaisons pair-à-pair évaluées par ChatGPT. Ressource idéale pour entraîner, comparer ou améliorer des modèles de langage.

Télécharger le dataset
Taille

110'000 exemples en Parquet (582 Mo)

Licence

MIT

Description

MixInstruct est un jeu de données de 110'000 exemples composé de réponses générées par 11 modèles de langage open-source populaires, à partir d’un ensemble commun d’instructions. Pour chaque réponse, plusieurs métriques automatiques sont fournies (BLEU, ROUGE, BERTScore, BARTScore), ainsi que des comparaisons pairées réalisées par ChatGPT sur un sous-ensemble de plus de 4 700 exemples.

À quoi sert ce dataset ?

  • Comparer les performances des modèles LLM sur des tâches de suivi d'instructions
  • Former ou évaluer des modèles génératifs multi-sources
  • Créer un benchmark cohérent d’instruction-following pour des LLMs open source

Peut-on l’enrichir ou l’améliorer ?

Oui, ce dataset peut être enrichi avec de nouveaux modèles, de nouvelles instructions ou d'autres métriques (ex. : human eval, score de toxicité). Il est aussi possible d’ajouter des métadonnées comme la durée de génération, les paramètres du modèle ou le coût d’inférence.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐⭐ (Format simple à manipuler, Parquet)
🧼Besoin de nettoyage ⭐⭐⭐☆☆ (données déjà bien structurées)
🏷️Richesse des annotations ⭐⭐⭐⭐⭐ (scores + comparaisons pairées)
📜Licence commerciale ✅ Oui (MIT)
👨‍💻Idéal pour les débutants 🧠 Accessible avec quelques notions en NLP
🔁Réutilisable en fine-tuning 🔥 Parfait pour le tuning de modèles d’instructions
🌍Diversité culturelle 🌐 Principalement en anglais, mais généralisable

🧠 Recommandé pour

  • Chercheurs en NLP
  • Développeurs de LLMs
  • Évaluateurs d'IA générative

🔧 Outils compatibles

  • Transformers
  • OpenChat
  • DeepEval
  • LangChain
  • Pandas

💡 Astuce

Filtrer les exemples selon la variance des scores pour créer un sous-ensemble difficile (hard set) à des fins d’évaluation fine.

Questions fréquemment posées

Ce dataset inclut-il des réponses générées par GPT-4 ?

Non, il inclut des comparaisons évaluées par GPT-4, mais les réponses proviennent de 11 autres modèles open-source.

Puis-je utiliser ce dataset pour entraîner un nouveau LLM ?

Oui, il peut servir pour du fine-tuning ou de la distillation multi-références, notamment sur des tâches de suivi d'instruction.

Les métriques sont-elles calculées automatiquement ou manuellement ?

Les scores comme BLEU ou ROUGE sont automatiques, mais les comparaisons pairées sont obtenues via évaluation GPT-4 (prompt ChatGPT).

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.