MultiNLI (Multi-Genre Natural Language Inference Corpus)

MultiNLI (Multi-Genre Natural Language Inference) est un jeu de données de référence pour l’évaluation de la compréhension logique du langage par les modèles NLP. Il a été conçu pour tester la capacité des modèles à déterminer la relation entre deux phrases : implication, contradiction ou neutralité.

Télécharger le dataset

Taille

Environ 400 000 paires de phrases, format TSV

Licence

Libre pour un usage académique. Des restrictions peuvent s’appliquer selon l’utilisation commerciale

Description

‍
Le dataset MultiNLI comprend :

Environ 400 000 paires de phrases annotées manuellement
Trois relations logiques : entailment, contradiction, neutre
Une diversité de sources textuelles couvrant des contextes formels et informels
Un format TSV facile à intégrer dans des pipelines NLP classiques

‍

À quoi sert ce dataset ?

‍
MultiNLI est principalement utilisé pour :

L’entraînement de modèles de reconnaissance d’entailment textuel (Textual Entailment)
L’évaluation de la capacité des modèles à détecter des relations logiques entre phrases
Le fine-tuning de modèles de langage sur des tâches de compréhension contextuelle
L’analyse de la robustesse et de la cohérence logique des réponses générées par les modèles

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, MultiNLI peut être enrichi ou adapté pour :

Créer des versions multilingues afin d’évaluer des modèles dans d’autres langues
Ajouter des métadonnées sur les genres ou domaines pour un filtrage plus fin
Combiner avec SNLI (Stanford NLI) pour une couverture plus large
Générer automatiquement de nouvelles paires avec des modèles de paraphrase ou de contradiction

‍

🔗 Source : MultiNLI Dataset

‍

Questions fréquemment posées

Quelle est la différence entre MultiNLI et SNLI ?

SNLI est centré sur un seul domaine (descriptions d’images), tandis que MultiNLI couvre plusieurs genres textuels, ce qui permet de mieux tester la généralisation des modèles à travers différents styles de langage.

Peut-on utiliser MultiNLI pour l’évaluation et l’entraînement ?

Oui, il est fréquemment utilisé à la fois pour le fine-tuning et pour l’évaluation de la qualité d’inférence logique d’un modèle.

Pourquoi MultiNLI est-il important pour les modèles de génération ?

Même si ce n’est pas un dataset de génération, MultiNLI aide à entraîner les modèles à maintenir la cohérence logique dans leurs réponses, ce qui est essentiel pour des applications comme les chatbots ou les assistants vocaux.

Datasets similaires

Texte

WinoGrande Raw Dataset

Image

Crop and Weed Detection Data with Bounding Boxes

Image

Pothole Image Segmentation Dataset