MMLU

MMLU es un punto de referencia para evaluar modelos lingüísticos en preguntas de opción múltiple de 57 campos académicos y profesionales.

Obtén el dataset

Tamaño

Aproximadamente 114 000 ejemplos, texto en formato JSON estructurado (MCQ)

Licencia

MIT

Descripción

‍

MMLU (Massive Multitask Language Understanding) es un conjunto de datos compuesto por preguntas de opción múltiple de 57 disciplinas variadas, que van desde las humanidades hasta las ciencias exactas. Cada ejemplo incluye una pregunta, cuatro opciones de respuesta y la opción correcta, todo ello estructurado para una evaluación detallada de los modelos lingüísticos.

‍

¿Para qué sirve este conjunto de datos?

‍

Evalúe las capacidades multitarea de los modelos lingüísticos grandes (LLM)
Comparación del rendimiento entre modelos sobre temas complejos y especializados
Creación de puntos de referencia estandarizados para el razonamiento y la comprensión

‍

¿Se puede enriquecer o mejorar?

‍

Sí, es posible adaptar el MMLU a otros idiomas o contextos culturales. Se pueden añadir nuevas preguntas por dominio y enriquecer las anotaciones para refinar las métricas de rendimiento (por ejemplo, la dificultad o el tiempo de respuesta estimado). También se podrían desarrollar variantes multilingües o especializadas (legales, médicas, etc.).

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐☆ (Estructura simple y lista para usar)
🧼Necesidad de limpieza	⭐⭐⭐⭐⭐ (Baja: datos ya bien estructurados)
🏷️Riqueza de anotaciones	⭐⭐⭐⭐☆ (Respuestas correctas incluidas, pero sin justificación textual)
📜Licencia comercial	✅ Sí (MIT)
👨‍💻Ideal para principiantes	👩‍💻 Accesible, especialmente para la evaluación de modelos
🔁Reutilizable para fine-tuning	⚠️ Menos adecuado: es un conjunto de prueba, no para entrenamiento
🌍Diversidad cultural	🌍 A enriquecer: centrado principalmente en referencias estadounidenses/anglosajonas

‍

🧠 Recomendado para

Investigadores de PNL
Diseñadores de referencia
Ingenieros de LLM

‍

🔧 Herramientas compatibles

Cara abrazada
Tabla de clasificación de OpenLLM
PyTorch
TensorFlow

‍

💡 Consejo

Utilice MMLU como punto de referencia final, no para el entrenamiento; esto ayuda a evitar fugas de datos y a probar mejor las verdaderas capacidades de generalización.

Preguntas frecuentes

¿Para qué se utiliza principalmente el conjunto de datos MMLU?

Está diseñado para evaluar las capacidades multitarea de los modelos lingüísticos en varios dominios a través de preguntas de opción múltiple.

¿Se puede entrenar un modelo directamente en este conjunto de datos?

No, el MMLU es para evaluación. La capacitación sobre este corpus distorsionaría los resultados de los puntos de referencia.

¿Existe una versión multilingüe de MMLU?

Todavía no, pero es posible crear uno traduciendo cuidadosamente las preguntas y adaptando las referencias culturales.

Otros datasets

Texto

Human vs LLM Text Corpus: detección de texto generado

Texto

MAPS – Multilingual Agentic Performance & Security

Imagen

Cityscapes Dataset