Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
MixInstruct – Comparación multi-LLM sobre respuestas a instrucciones
Texto

MixInstruct – Comparación multi-LLM sobre respuestas a instrucciones

Conjunto de datos masivo que contiene respuestas de 11 LLM sobre varias instrucciones. Incluye puntuaciones de calidad automáticas (BLUE, RED, BertScore, BartScore), así como comparaciones entre pares evaluadas por ChatGPT. Un recurso ideal para entrenar, comparar o mejorar los modelos lingüísticos.

Obtén el dataset
Tamaño

110 000 ejemplos en Parquet (582 MB)

Licencia

MIT

Descripción

MixInstruct es un conjunto de datos de 110 000 ejemplos compuesto por respuestas generadas por 11 modelos de lenguaje de código abierto populares, basados en un conjunto común de instrucciones. Para cada respuesta, se proporcionan varias métricas automáticas (BLUE, RED, BertScore, BartScore), así como comparaciones por pares realizadas por ChatGPT en un subconjunto de más de 4.700 ejemplos.

¿Para qué sirve este conjunto de datos?

  • Compare el rendimiento de los modelos de LLM en las tareas de seguimiento de instrucciones
  • Entrenamiento o evaluación de modelos generativos de múltiples fuentes
  • Cree un punto de referencia coherente que siga las instrucciones para los LLM de código abierto

¿Se puede enriquecer o mejorar?

Sí, este conjunto de datos se puede enriquecer con nuevos modelos, nuevas instrucciones u otras métricas (por ejemplo, evaluación en humanos, puntuación de toxicidad). También es posible agregar metadatos como el tiempo de generación, los parámetros del modelo o el costo de la inferencia.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐⭐ (Formato simple de manejar, Parquet)
🧼Limpieza necesaria ⭐⭐⭐☆☆ (Datos ya bien estructurados)
🏷️Riqueza de anotaciones ⭐⭐⭐⭐⭐ (Puntuaciones + comparaciones por pares)
📜Licencia comercial ✅ Sí (MIT)
👨‍💻Apto para principiantes 🧠 Accesible con algunos conocimientos de NLP
🔁Reutilizable para fine-tuning 🔥 Perfecto para fine-tuning de modelos de instrucciones
🌍Diversidad cultural 🌐 Principalmente en inglés, pero generalizable

🧠 Recomendado para

  • Investigadores de PNL
  • Desarrolladores de LLMs
  • Evaluadores de IA generativa

🔧 Herramientas compatibles

  • Transformers
  • OpenChat
  • DeepEval
  • LangChain
  • Pandas

💡 Consejo

Filtre los ejemplos según la varianza de las puntuaciones para crear un subconjunto difícil (conjunto duro) con fines de evaluación precisa.

Preguntas frecuentes

¿Este conjunto de datos incluye las respuestas generadas por GPT-4?

No, incluye comparaciones evaluadas por GPT-4, pero las respuestas provienen de otros 11 modelos de código abierto.

¿Puedo usar este conjunto de datos para entrenar un nuevo LLM?

Sí, se puede usar para afinar o para la destilación de múltiples referencias, especialmente para tareas de seguimiento de instrucciones.

¿Las métricas se calculan de forma automática o manual?

Las puntuaciones como BLUE o RED son automáticas, pero las comparaciones por pares se obtienen mediante la evaluación GPT-4 (chat rápido GPT).

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.