Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Texto

MMLU

MMLU es un punto de referencia para evaluar modelos lingüísticos en preguntas de opción múltiple de 57 campos académicos y profesionales.

Obtén el dataset
Tamaño

Aproximadamente 114 000 ejemplos, texto en formato JSON estructurado (MCQ)

Licencia

MIT

Descripción

MMLU (Massive Multitask Language Understanding) es un conjunto de datos compuesto por preguntas de opción múltiple de 57 disciplinas variadas, que van desde las humanidades hasta las ciencias exactas. Cada ejemplo incluye una pregunta, cuatro opciones de respuesta y la opción correcta, todo ello estructurado para una evaluación detallada de los modelos lingüísticos.

¿Para qué sirve este conjunto de datos?

  • Evalúe las capacidades multitarea de los modelos lingüísticos grandes (LLM)
  • Comparación del rendimiento entre modelos sobre temas complejos y especializados
  • Creación de puntos de referencia estandarizados para el razonamiento y la comprensión

¿Se puede enriquecer o mejorar?

Sí, es posible adaptar el MMLU a otros idiomas o contextos culturales. Se pueden añadir nuevas preguntas por dominio y enriquecer las anotaciones para refinar las métricas de rendimiento (por ejemplo, la dificultad o el tiempo de respuesta estimado). También se podrían desarrollar variantes multilingües o especializadas (legales, médicas, etc.).

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐☆ (Estructura simple y lista para usar)
🧼Necesidad de limpieza ⭐⭐⭐⭐⭐ (Baja: datos ya bien estructurados)
🏷️Riqueza de anotaciones ⭐⭐⭐⭐☆ (Respuestas correctas incluidas, pero sin justificación textual)
📜Licencia comercial ✅ Sí (MIT)
👨‍💻Ideal para principiantes 👩‍💻 Accesible, especialmente para la evaluación de modelos
🔁Reutilizable para fine-tuning ⚠️ Menos adecuado: es un conjunto de prueba, no para entrenamiento
🌍Diversidad cultural 🌍 A enriquecer: centrado principalmente en referencias estadounidenses/anglosajonas

🧠 Recomendado para

  • Investigadores de PNL
  • Diseñadores de referencia
  • Ingenieros de LLM

🔧 Herramientas compatibles

  • Cara abrazada
  • Tabla de clasificación de OpenLLM
  • PyTorch
  • TensorFlow

💡 Consejo

Utilice MMLU como punto de referencia final, no para el entrenamiento; esto ayuda a evitar fugas de datos y a probar mejor las verdaderas capacidades de generalización.

Preguntas frecuentes

¿Para qué se utiliza principalmente el conjunto de datos MMLU?

Está diseñado para evaluar las capacidades multitarea de los modelos lingüísticos en varios dominios a través de preguntas de opción múltiple.

¿Se puede entrenar un modelo directamente en este conjunto de datos?

No, el MMLU es para evaluación. La capacitación sobre este corpus distorsionaría los resultados de los puntos de referencia.

¿Existe una versión multilingüe de MMLU?

Todavía no, pero es posible crear uno traduciendo cuidadosamente las preguntas y adaptando las referencias culturales.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.