MixInstruct – Comparación multi-LLM sobre respuestas a instrucciones
Conjunto de datos masivo que contiene respuestas de 11 LLM sobre varias instrucciones. Incluye puntuaciones de calidad automáticas (BLUE, RED, BertScore, BartScore), así como comparaciones entre pares evaluadas por ChatGPT. Un recurso ideal para entrenar, comparar o mejorar los modelos lingüísticos.
Descripción
MixInstruct es un conjunto de datos de 110 000 ejemplos compuesto por respuestas generadas por 11 modelos de lenguaje de código abierto populares, basados en un conjunto común de instrucciones. Para cada respuesta, se proporcionan varias métricas automáticas (BLUE, RED, BertScore, BartScore), así como comparaciones por pares realizadas por ChatGPT en un subconjunto de más de 4.700 ejemplos.
¿Para qué sirve este conjunto de datos?
- Compare el rendimiento de los modelos de LLM en las tareas de seguimiento de instrucciones
- Entrenamiento o evaluación de modelos generativos de múltiples fuentes
- Cree un punto de referencia coherente que siga las instrucciones para los LLM de código abierto
¿Se puede enriquecer o mejorar?
Sí, este conjunto de datos se puede enriquecer con nuevos modelos, nuevas instrucciones u otras métricas (por ejemplo, evaluación en humanos, puntuación de toxicidad). También es posible agregar metadatos como el tiempo de generación, los parámetros del modelo o el costo de la inferencia.
🔎 En resumen
🧠 Recomendado para
- Investigadores de PNL
- Desarrolladores de LLMs
- Evaluadores de IA generativa
🔧 Herramientas compatibles
- Transformers
- OpenChat
- DeepEval
- LangChain
- Pandas
💡 Consejo
Filtre los ejemplos según la varianza de las puntuaciones para crear un subconjunto difícil (conjunto duro) con fines de evaluación precisa.
Preguntas frecuentes
¿Este conjunto de datos incluye las respuestas generadas por GPT-4?
No, incluye comparaciones evaluadas por GPT-4, pero las respuestas provienen de otros 11 modelos de código abierto.
¿Puedo usar este conjunto de datos para entrenar un nuevo LLM?
Sí, se puede usar para afinar o para la destilación de múltiples referencias, especialmente para tareas de seguimiento de instrucciones.
¿Las métricas se calculan de forma automática o manual?
Las puntuaciones como BLUE o RED son automáticas, pero las comparaciones por pares se obtienen mediante la evaluación GPT-4 (chat rápido GPT).




