ChatML Format Dolly 15K
Version convertie du célèbre dataset Dolly 15K dans un format ChatML standard, compatible avec les modèles de type assistant conversationnel.
Description
Le dataset ChatML-databricks-dolly-15k est une version restructurée du jeu de données Dolly 15K, convertie au format ChatML. Ce format est largement utilisé pour l’entraînement de modèles conversationnels open-source compatibles avec les prompts structurés (ex. : LLaMA, Mistral, etc.). Chaque exemple est une paire instruction + contexte suivie d’une réponse, représentée sous forme de messages "rôlés" (user
et assistant
).
À quoi sert ce dataset ?
- Fine-tuner un modèle de type assistant IA (chatbot)
- Tester l’instruction tuning dans un format standardisé
- Expérimenter avec le format ChatML pour l’inférence multirôle
Peut-on l’enrichir ou l’améliorer ?
Oui, on peut enrichir ce dataset en y ajoutant des métadonnées (difficulté, catégorie thématique), traduire les instructions ou le combiner avec d’autres formats similaires. Il est aussi possible de le compléter avec des données issues de dialogues réels ou simulés.
🔎 En résumé
🧠 Recommandé pour
- Développeurs d’agents conversationnels
- Chercheurs en fine-tuning
- Passionnés de LLM open-source
🔧 Outils compatibles
- Hugging Face Transformers
- VLLM
- Axolotl
- FastChat
- LoRA
💡 Astuce
Pour maximiser les performances, adaptez les messages à la structure exacte attendue par votre modèle cible (ex. ajout de tokens spéciaux).
Questions fréquemment posées
Ce dataset peut-il être utilisé avec Mistral ou LLaMA ?
Oui, le format ChatML est largement compatible avec les modèles open-source comme LLaMA, Mistral, etc.
Quelle est la différence avec le dataset Dolly original ?
Il s'agit d’une version convertie au format ChatML, mieux adaptée aux modèles à architecture conversationnelle.
Est-il multilingue ?
Non, ce dataset est majoritairement en anglais. Pour du multilingue, il peut être complété avec d’autres jeux de données.