MultinLI (corpus de inferencia del lenguaje natural multigénero)

MultinLI (inferencia del lenguaje natural multigénero) es un conjunto de datos de referencia para evaluar la comprensión lógica del lenguaje mediante modelos de PNL. Fue diseñado para evaluar la capacidad de los modelos para determinar la relación entre dos oraciones: implicación, contradicción o neutralidad.

Obtén el dataset

Tamaño

Aproximadamente 400 000 pares de oraciones, formato TSV

Licencia

Gratuito para uso académico. Pueden aplicarse restricciones según el uso comercial

Descripción

‍
El conjunto de datos MultinLI incluye:

Aproximadamente 400 000 pares de oraciones anotadas manualmente
Tres relaciones lógicas: sesgo, contradicción, neutralidad
Una diversidad de fuentes textuales que cubren contextos formales e informales
Un formato TSV que es fácil de integrar en las canalizaciones de PNL tradicionales

‍

¿Para qué sirve este conjunto de datos?

‍
MultinLi se utiliza principalmente para:

Entrenamiento de modelos de reconocimiento de vinculación textual
Evaluación de la capacidad de los modelos para detectar relaciones lógicas entre oraciones
El ajuste fino de los modelos lingüísticos en las tareas de comprensión contextual
Análisis de la solidez y la coherencia lógica de las respuestas generadas por los modelos

‍

¿Se puede enriquecer o mejorar?

‍
Sí, MultinLi se puede enriquecer o adaptar para:

Cree versiones multilingües para evaluar modelos en otros idiomas
Agregue metadatos sobre géneros o dominios para un filtrado más preciso
Combínelo con SNLI (Stanford NLI) para una cobertura más amplia
Genere automáticamente nuevos pares con modelos de paráfrasis o contradicción

‍

🔗 Fuente: Conjunto de datos MultinLI

‍

Preguntas frecuentes

¿Cuál es la diferencia entre MultinLI y SNLI?

SNLI se centra en un solo dominio (descripciones de imágenes), mientras que MultiNLI cubre varios géneros de texto, lo que permite probar mejor la generalización de modelos en diferentes estilos lingüísticos.

¿Se puede utilizar MultinLI para la evaluación y la formación?

Sí, se usa con frecuencia tanto para ajustar como para evaluar la calidad de la inferencia lógica de un modelo.

¿Por qué es importante MultinLI para los modelos de generación?

Aunque no se trata de un conjunto de datos de generación, MultiNLI ayuda a entrenar a los modelos para mantener la coherencia lógica en sus respuestas, lo cual es fundamental para aplicaciones como los chatbots o los asistentes de voz.

Otros datasets

Texto

Datos bursátiles de Quandl

Texto

OpenMathReasoning

Imagen

Garbage Detection Dataset