ChatML Format Dolly 15K

Version convertie du célèbre dataset Dolly 15K dans un format ChatML standard, compatible avec les modèles de type assistant conversationnel.

Télécharger le dataset

Taille

15 000 dialogues, format Parquet structuré

Licence

CC-BY-SA 3.0

Description

‍

Le dataset ChatML-databricks-dolly-15k est une version restructurée du jeu de données Dolly 15K, convertie au format ChatML. Ce format est largement utilisé pour l’entraînement de modèles conversationnels open-source compatibles avec les prompts structurés (ex. : LLaMA, Mistral, etc.). Chaque exemple est une paire instruction + contexte suivie d’une réponse, représentée sous forme de messages "rôlés" (user et assistant).

‍

À quoi sert ce dataset ?

‍

Fine-tuner un modèle de type assistant IA (chatbot)
Tester l’instruction tuning dans un format standardisé
Expérimenter avec le format ChatML pour l’inférence multirôle

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, on peut enrichir ce dataset en y ajoutant des métadonnées (difficulté, catégorie thématique), traduire les instructions ou le combiner avec d’autres formats similaires. Il est aussi possible de le compléter avec des données issues de dialogues réels ou simulés.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐⭐ (Format prêt à l’emploi pour LLMs)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Aucun : déjà restructuré)
🏷️ Richesse des annotations	⭐⭐✩✩✩ (Simple, mais suffisant pour du dialogue instructif)
📜 Licence commerciale	✅ Oui (CC-BY-SA 3.0)
👨‍💻 Idéal pour les débutants	⚡ Très bon point de départ pour le fine-tuning
🔁 Réutilisable en fine-tuning	🤖 Format optimal pour assistants
🌍 Diversité culturelle	⚠️ Majoritairement anglophone