MixInstruct – Comparación multi-LLM sobre respuestas a instrucciones

Conjunto de datos masivo que contiene respuestas de 11 LLM sobre varias instrucciones. Incluye puntuaciones de calidad automáticas (BLUE, RED, BertScore, BartScore), así como comparaciones entre pares evaluadas por ChatGPT. Un recurso ideal para entrenar, comparar o mejorar los modelos lingüísticos.

Obtén el dataset

Tamaño

110 000 ejemplos en Parquet (582 MB)

Licencia

MIT

Descripción

‍

MixInstruct es un conjunto de datos de 110 000 ejemplos compuesto por respuestas generadas por 11 modelos de lenguaje de código abierto populares, basados en un conjunto común de instrucciones. Para cada respuesta, se proporcionan varias métricas automáticas (BLUE, RED, BertScore, BartScore), así como comparaciones por pares realizadas por ChatGPT en un subconjunto de más de 4.700 ejemplos.

‍

¿Para qué sirve este conjunto de datos?

‍

Compare el rendimiento de los modelos de LLM en las tareas de seguimiento de instrucciones
Entrenamiento o evaluación de modelos generativos de múltiples fuentes
Cree un punto de referencia coherente que siga las instrucciones para los LLM de código abierto

‍

¿Se puede enriquecer o mejorar?

‍

Sí, este conjunto de datos se puede enriquecer con nuevos modelos, nuevas instrucciones u otras métricas (por ejemplo, evaluación en humanos, puntuación de toxicidad). También es posible agregar metadatos como el tiempo de generación, los parámetros del modelo o el costo de la inferencia.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐⭐ (Formato simple de manejar, Parquet)
🧼Limpieza necesaria	⭐⭐⭐☆☆ (Datos ya bien estructurados)
🏷️Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Puntuaciones + comparaciones por pares)
📜Licencia comercial	✅ Sí (MIT)
👨‍💻Apto para principiantes	🧠 Accesible con algunos conocimientos de NLP
🔁Reutilizable para fine-tuning	🔥 Perfecto para fine-tuning de modelos de instrucciones
🌍Diversidad cultural	🌐 Principalmente en inglés, pero generalizable