Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
ChatML Format Dolly 15K
Texto

ChatML Format Dolly 15K

Versión convertida del famoso conjunto de datos Dolly 15K a un formato ChatML estándar, compatible con los modelos de asistentes de conversación.

Obtén el dataset
Tamaño

15.000 diálogos, formato Structured Parquet

Licencia

CC-BY-SA 3.0

Descripción

El conjunto de datos Chat ML-Databricks-Dolly-15k es una versión reestructurada del conjunto de datos Dolly 15K, convertido al formato ChatML. Este formato se usa ampliamente para entrenar modelos conversacionales de código abierto compatibles con instrucciones estructuradas (por ejemplo: LLama, Mistral, etc.). Cada ejemplo es un par instrucción + contexto seguido de una respuesta, representada como mensajes confusos (Usuario y ayudante).

¿Para qué sirve este conjunto de datos?

  • Afinar un modelo de asistente de IA (chatbot)
  • Pruebe la instrucción de afinación en un formato estandarizado
  • Experimentar con el formato ChatML para la inferencia multifunción

¿Se puede enriquecer o mejorar?

Sí, puede enriquecer este conjunto de datos añadiendo metadatos (dificultad, categoría temática), traduciendo instrucciones o combinándolo con otros formatos similares. También es posible completarlo con datos de diálogos reales o simulados.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (Formato listo para LLMs)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Ninguno – ya reestructurado)
🏷️ Riqueza de anotaciones⭐⭐✩✩✩ (Simple, pero suficiente para diálogo instructivo)
📜 Licencia comercial✅ Sí (CC-BY-SA 3.0)
👨‍💻 Ideal para principiantes⚡ Muy buen punto de partida para fine-tuning
🔁 Reutilizable para fine-tuning🤖 Formato óptimo para asistentes
🌍 Diversidad cultural⚠️ Mayormente en inglés

🧠 Recomendado para

  • Desarrolladores de agentes conversacionales
  • Perfeccionando a los investigadores
  • Entusiastas de LLM de código abierto

🔧 Herramientas compatibles

  • Transformers Huggging Face
  • VOLM
  • Axolotl
  • LoRa

💡 Consejo

Para maximizar el rendimiento, adapte los mensajes a la estructura exacta que espera su modelo objetivo (por ejemplo, añadiendo fichas especiales).

Preguntas frecuentes

¿Se puede usar este conjunto de datos con Mistral o LLama?

Sí, el formato ChatML es ampliamente compatible con modelos de código abierto como LLama, Mistral, etc.

¿Cuál es la diferencia con el conjunto de datos original de Dolly?

Es una versión convertida al formato ChatML, más adecuada para modelos con una arquitectura conversacional.

¿Es multilingüe?

No, este conjunto de datos está principalmente en inglés. Para fines multilingües, se puede completar con otros conjuntos de datos.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.