En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Texte

LexGLUE

LexGLUE est un benchmark NLP dédié au domaine juridique, conçu pour évaluer la performance des modèles sur des tâches comme la classification de décisions, la prédiction d’articles violés, ou encore les QCM juridiques. Il combine sept sous-ensembles de données, chacun avec un objectif spécifique, pour favoriser l’émergence de modèles multitâches performants dans le domaine du droit.

Télécharger le dataset
Taille

Plus de 7 sous-datasets (classif., QA), fichiers JSON, milliers de documents juridiques annotés

Licence

CC-BY 4.0

Description

LexGLUE est un benchmark de NLP juridique regroupant sept sous-datasets couvrant différentes juridictions (EU, US) et tâches (classification multi-label, QCM, prédiction d'articles juridiques, etc.). Il permet d'évaluer des modèles de type "foundation" sur des tâches variées en droit, à l'image de GLUE ou SuperGLUE mais dédié au domaine légal. Chaque dataset a été pré-traité pour faciliter son utilisation par des chercheurs ou praticiens en IA juridique.

À quoi sert ce dataset ?

  • Tester la robustesse de modèles multitâches dans un cadre juridique réaliste
  • Entraîner un LLM à comprendre, classer ou raisonner sur des documents juridiques
  • Développer des systèmes LegalTech (analyse contractuelle, prédiction de décisions, etc.)

Peut-on l’enrichir ou l’améliorer ?

Oui, LexGLUE peut être enrichi par l’ajout de nouvelles juridictions ou de formats d’annotation (ex. résumé d’arguments, décisions majoritaires vs minoritaires). Son format modulaire facilite aussi la fusion avec d’autres corpus juridiques pour un entraînement plus complet. Il peut également servir de base pour l’adaptation à des contextes francophones ou multilingues via traduction contrôlée.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐✩ (Bien structuré avec scripts fournis)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Faible – Données prêtes à l’emploi)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Excellente – plusieurs types d’annotations selon la tâche)
📜 Licence commerciale✅ Oui (CC-BY 4.0)
👨‍💻 Idéal pour les débutants⚠️ Moyen – mieux adapté à des projets structurés
🔁 Réutilisable en fine-tuning🎯 Parfait pour adapter un modèle à des cas d’usage Legal AI
🌍 Diversité culturelle⚡ Moyenne – focus sur le droit européen et américain

🧠 Recommandé pour

  • Laboratoires en IA juridique
  • Éditeurs LegalTech
  • Chercheurs en droit comparé

🔧 Outils compatibles

  • Hugging Face Transformers
  • PyTorch
  • DeBERTa
  • Legal-BERT
  • LoRA

💡 Astuce

Commencez par une tâche simple (ex. LEDGAR) pour tester la robustesse de votre modèle avant d’aborder des cas complexes comme CaseHOLD ou ECtHR.

Questions fréquemment posées

LexGLUE contient-il des données multilingues ?

Non, tous les sous-datasets sont en anglais, mais certains peuvent être traduits/adaptés pour d’autres juridictions.

Peut-on utiliser ce benchmark pour des modèles non juridiques ?

Oui, LexGLUE permet d’évaluer la capacité de modèles généralistes à s’adapter à des textes techniques ou juridiques.

Existe-t-il une hiérarchie entre les sous-datasets pour structurer l’entraînement ?

Oui, certains sous-datasets sont plus simples (LEDGAR), d’autres plus complexes (CaseHOLD) : il est recommandé de les combiner progressivement.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.