GLUE Benchmark

GLUE (Evaluación de la comprensión del lenguaje general) es un punto de referencia de referencia de la PNL, diseñado para evaluar la capacidad de los modelos para comprender el lenguaje de forma estandarizada. Reúne varias tareas fundamentales, como la clasificación de textos, la detección de similitudes semánticas o la inferencia lógica.

Obtén el dataset

Tamaño

Conjunto de varios conjuntos de datos en formato TSV y JSON

Licencia

Gratuito para uso académico. Se recomienda la verificación para usos comerciales según los subconjuntos de datos

Descripción

‍
El punto de referencia GLUE incluye:

9 conjuntos de datos que cubren diversas tareas: hurtar, parafrasear, analizar sentimientos, detectar anomalías, etc.
Formatos estándar (TSV, JSON) para facilitar la integración en los canales de formación
Una tabla de clasificación pública para comparar el rendimiento de los modelos
Una puntuación global (puntuación GLUE) que resume los resultados de las distintas tareas

‍

¿Para qué sirve este conjunto de datos?

‍
El PEGAMENTO se usa para:

La evaluación detallada de los modelos de procesamiento del lenguaje natural en diversas tareas
Comparación del rendimiento entre diferentes arquitecturas o enfoques de formación
Mejorar los modelos de PNL a través de comentarios estructurados sobre sus puntos fuertes y débiles
El desarrollo de modelos más generales y robustos en PNL

‍

¿Se puede enriquecer o mejorar?

‍
Sí, aunque es muy completo, GLUE ha inspirado varias extensiones:

SuperGlue: una versión más difícil con tareas más complejas
Traducción y adaptación multilingües para la evaluación de modelos que no hablan inglés
Adición de dimensiones como la imparcialidad, la parcialidad o la solidez frente a las perturbaciones adversas
Integración en marcos automatizados de ajuste fino como Hugging Face Transformers

‍

🔗 Fuente: Punto de referencia GLUE

‍

Preguntas frecuentes

¿Cuál es la diferencia entre GLUE y SuperGlue?

SuperGlue utiliza el principio GLUE, pero añade tareas más complejas y exigentes para diferenciar mejor los modelos de nueva generación. Se considera un punto de referencia más selectivo.

‍

¿Se puede usar GLUE para la capacitación o solo para la evaluación?

GLUE está diseñado principalmente para la evaluación, pero sus subconjuntos de datos se pueden usar para realizar ajustes o realizar validaciones cruzadas si las licencias lo permiten.

¿GLUE sigue siendo relevante hoy en día?

Sí, a pesar de la aparición de nuevos puntos de referencia, GLUE sigue siendo una referencia para evaluar la comprensión lingüística básica. A menudo se usa como un paso intermedio antes de los puntos de referencia más complejos.

Otros datasets

Texto

Prompt Injections Dataset

Texto

Women’s E-Commerce Clothing Reviews

Vídeo

CameraBench