ChatML Format Dolly 15K

Versión convertida del famoso conjunto de datos Dolly 15K a un formato ChatML estándar, compatible con los modelos de asistentes de conversación.

Obtén el dataset

Tamaño

15.000 diálogos, formato Structured Parquet

Licencia

CC-BY-SA 3.0

Descripción

‍

El conjunto de datos Chat ML-Databricks-Dolly-15k es una versión reestructurada del conjunto de datos Dolly 15K, convertido al formato ChatML. Este formato se usa ampliamente para entrenar modelos conversacionales de código abierto compatibles con instrucciones estructuradas (por ejemplo: LLama, Mistral, etc.). Cada ejemplo es un par instrucción + contexto seguido de una respuesta, representada como mensajes confusos (Usuario y ayudante).

‍

¿Para qué sirve este conjunto de datos?

‍

Afinar un modelo de asistente de IA (chatbot)
Pruebe la instrucción de afinación en un formato estandarizado
Experimentar con el formato ChatML para la inferencia multifunción

‍

¿Se puede enriquecer o mejorar?

‍

Sí, puede enriquecer este conjunto de datos añadiendo metadatos (dificultad, categoría temática), traduciendo instrucciones o combinándolo con otros formatos similares. También es posible completarlo con datos de diálogos reales o simulados.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Formato listo para LLMs)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Ninguno – ya reestructurado)
🏷️ Riqueza de anotaciones	⭐⭐✩✩✩ (Simple, pero suficiente para diálogo instructivo)
📜 Licencia comercial	✅ Sí (CC-BY-SA 3.0)
👨‍💻 Ideal para principiantes	⚡ Muy buen punto de partida para fine-tuning
🔁 Reutilizable para fine-tuning	🤖 Formato óptimo para asistentes
🌍 Diversidad cultural	⚠️ Mayormente en inglés