En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
ChatML Format Dolly 15K
Texte

ChatML Format Dolly 15K

Version convertie du célèbre dataset Dolly 15K dans un format ChatML standard, compatible avec les modèles de type assistant conversationnel.

Télécharger le dataset
Taille

15 000 dialogues, format Parquet structuré

Licence

CC-BY-SA 3.0

Description

Le dataset ChatML-databricks-dolly-15k est une version restructurée du jeu de données Dolly 15K, convertie au format ChatML. Ce format est largement utilisé pour l’entraînement de modèles conversationnels open-source compatibles avec les prompts structurés (ex. : LLaMA, Mistral, etc.). Chaque exemple est une paire instruction + contexte suivie d’une réponse, représentée sous forme de messages "rôlés" (user et assistant).

À quoi sert ce dataset ?

  • Fine-tuner un modèle de type assistant IA (chatbot)
  • Tester l’instruction tuning dans un format standardisé
  • Expérimenter avec le format ChatML pour l’inférence multirôle

Peut-on l’enrichir ou l’améliorer ?

Oui, on peut enrichir ce dataset en y ajoutant des métadonnées (difficulté, catégorie thématique), traduire les instructions ou le combiner avec d’autres formats similaires. Il est aussi possible de le compléter avec des données issues de dialogues réels ou simulés.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Format prêt à l’emploi pour LLMs)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Aucun : déjà restructuré)
🏷️ Richesse des annotations⭐⭐✩✩✩ (Simple, mais suffisant pour du dialogue instructif)
📜 Licence commerciale✅ Oui (CC-BY-SA 3.0)
👨‍💻 Idéal pour les débutants⚡ Très bon point de départ pour le fine-tuning
🔁 Réutilisable en fine-tuning🤖 Format optimal pour assistants
🌍 Diversité culturelle⚠️ Majoritairement anglophone

🧠 Recommandé pour

  • Développeurs d’agents conversationnels
  • Chercheurs en fine-tuning
  • Passionnés de LLM open-source

🔧 Outils compatibles

  • Hugging Face Transformers
  • VLLM
  • Axolotl
  • FastChat
  • LoRA

💡 Astuce

Pour maximiser les performances, adaptez les messages à la structure exacte attendue par votre modèle cible (ex. ajout de tokens spéciaux).

Questions fréquemment posées

Ce dataset peut-il être utilisé avec Mistral ou LLaMA ?

Oui, le format ChatML est largement compatible avec les modèles open-source comme LLaMA, Mistral, etc.

Quelle est la différence avec le dataset Dolly original ?

Il s'agit d’une version convertie au format ChatML, mieux adaptée aux modèles à architecture conversationnelle.

Est-il multilingue ?

Non, ce dataset est majoritairement en anglais. Pour du multilingue, il peut être complété avec d’autres jeux de données.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.