ChatML Format Dolly 15K
Versión convertida del famoso conjunto de datos Dolly 15K a un formato ChatML estándar, compatible con los modelos de asistentes de conversación.
Descripción
El conjunto de datos Chat ML-Databricks-Dolly-15k es una versión reestructurada del conjunto de datos Dolly 15K, convertido al formato ChatML. Este formato se usa ampliamente para entrenar modelos conversacionales de código abierto compatibles con instrucciones estructuradas (por ejemplo: LLama, Mistral, etc.). Cada ejemplo es un par instrucción + contexto seguido de una respuesta, representada como mensajes confusos (Usuario
y ayudante
).
¿Para qué sirve este conjunto de datos?
- Afinar un modelo de asistente de IA (chatbot)
- Pruebe la instrucción de afinación en un formato estandarizado
- Experimentar con el formato ChatML para la inferencia multifunción
¿Se puede enriquecer o mejorar?
Sí, puede enriquecer este conjunto de datos añadiendo metadatos (dificultad, categoría temática), traduciendo instrucciones o combinándolo con otros formatos similares. También es posible completarlo con datos de diálogos reales o simulados.
🔎 En resumen
🧠 Recomendado para
- Desarrolladores de agentes conversacionales
- Perfeccionando a los investigadores
- Entusiastas de LLM de código abierto
🔧 Herramientas compatibles
- Transformers Huggging Face
- VOLM
- Axolotl
- LoRa
💡 Consejo
Para maximizar el rendimiento, adapte los mensajes a la estructura exacta que espera su modelo objetivo (por ejemplo, añadiendo fichas especiales).
Preguntas frecuentes
¿Se puede usar este conjunto de datos con Mistral o LLama?
Sí, el formato ChatML es ampliamente compatible con modelos de código abierto como LLama, Mistral, etc.
¿Cuál es la diferencia con el conjunto de datos original de Dolly?
Es una versión convertida al formato ChatML, más adecuada para modelos con una arquitectura conversacional.
¿Es multilingüe?
No, este conjunto de datos está principalmente en inglés. Para fines multilingües, se puede completar con otros conjuntos de datos.