Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
MultinLI (corpus de inferencia del lenguaje natural multigénero)
Texto

MultinLI (corpus de inferencia del lenguaje natural multigénero)

MultinLI (inferencia del lenguaje natural multigénero) es un conjunto de datos de referencia para evaluar la comprensión lógica del lenguaje mediante modelos de PNL. Fue diseñado para evaluar la capacidad de los modelos para determinar la relación entre dos oraciones: implicación, contradicción o neutralidad.

Obtén el dataset
Tamaño

Aproximadamente 400 000 pares de oraciones, formato TSV

Licencia

Gratuito para uso académico. Pueden aplicarse restricciones según el uso comercial

Descripción


El conjunto de datos MultinLI incluye:

  • Aproximadamente 400 000 pares de oraciones anotadas manualmente
  • Tres relaciones lógicas: sesgo, contradicción, neutralidad
  • Una diversidad de fuentes textuales que cubren contextos formales e informales
  • Un formato TSV que es fácil de integrar en las canalizaciones de PNL tradicionales

¿Para qué sirve este conjunto de datos?


MultinLi se utiliza principalmente para:

  • Entrenamiento de modelos de reconocimiento de vinculación textual
  • Evaluación de la capacidad de los modelos para detectar relaciones lógicas entre oraciones
  • El ajuste fino de los modelos lingüísticos en las tareas de comprensión contextual
  • Análisis de la solidez y la coherencia lógica de las respuestas generadas por los modelos

¿Se puede enriquecer o mejorar?


Sí, MultinLi se puede enriquecer o adaptar para:

  • Cree versiones multilingües para evaluar modelos en otros idiomas
  • Agregue metadatos sobre géneros o dominios para un filtrado más preciso
  • Combínelo con SNLI (Stanford NLI) para una cobertura más amplia
  • Genere automáticamente nuevos pares con modelos de paráfrasis o contradicción

🔗 Fuente: Conjunto de datos MultinLI

Preguntas frecuentes

¿Cuál es la diferencia entre MultinLI y SNLI?

SNLI se centra en un solo dominio (descripciones de imágenes), mientras que MultiNLI cubre varios géneros de texto, lo que permite probar mejor la generalización de modelos en diferentes estilos lingüísticos.

¿Se puede utilizar MultinLI para la evaluación y la formación?

Sí, se usa con frecuencia tanto para ajustar como para evaluar la calidad de la inferencia lógica de un modelo.

¿Por qué es importante MultinLI para los modelos de generación?

Aunque no se trata de un conjunto de datos de generación, MultiNLI ayuda a entrenar a los modelos para mantener la coherencia lógica en sus respuestas, lo cual es fundamental para aplicaciones como los chatbots o los asistentes de voz.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.