En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Text Anonymization Benchmark
Texte

Text Anonymization Benchmark

Corpus structuré de décisions juridiques européennes annotées pour l’anonymisation : entités nommées, identifiants, attributs sensibles.

Télécharger le dataset
Taille

1 268 documents en anglais au format JSON annoté

Licence

MIT

Description

Le dataset Text Anonymization Benchmark (TAB) regroupe 1 268 jugements en anglais de la Cour européenne des droits de l’homme, minutieusement annotés pour l’étude et la modélisation de l’anonymisation automatique de documents. Chaque fichier contient le texte original, des identifiants d’entités nommées (personnes, lieux, etc.), leur catégorie sémantique, leur statut confidentiel, ainsi que des relations de coréférence. Le format JSON standoff permet une réutilisation fine dans des pipelines NLP.

À quoi sert ce dataset ?

  • Entraîner des modèles pour l’anonymisation automatique de textes juridiques ou sensibles
  • Étudier les biais liés aux informations personnelles et confidentielles dans les documents
  • Tester des systèmes de détection et de masquage d’entités nommées (NER)

Peut-on l’enrichir ou l’améliorer ?

Oui. Il est possible d’ajouter d'autres langues ou juridictions pour une meilleure couverture géographique. Les annotations peuvent être enrichies avec des typologies juridiques ou des métadonnées supplémentaires (types de décisions, durée, etc.). Ce corpus peut aussi être croisé avec d’autres jeux pour augmenter la diversité des cas.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐✩ (Format JSON clair et documenté)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Faible : données prêtes à l’emploi)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Très détaillées - identifiants, catégories, coréférences)
📜 Licence commerciale✅ Oui (MIT)
👨‍💻 Idéal pour les débutants⚠️ Accessible avec des bases en NLP
🔁 Réutilisable en fine-tuning🎯 Oui, idéal pour NER, anonymisation, classification
🌍 Diversité culturelle⚠️ Limité à l’Europe et à l’anglais

🧠 Recommandé pour

  • Chercheurs en droit numérique
  • Projets d’anonymisation NLP
  • Labellisation juridique

🔧 Outils compatibles

  • SpaCy
  • Hugging Face Transformers
  • Prodigy
  • Doccano

💡 Astuce

Pour détecter les biais, comparez les annotations de plusieurs annotateurs via le champ annotator_id.

Questions fréquemment posées

Ce dataset est-il adapté à d'autres domaines que le droit ?

Oui, bien qu’issu du domaine juridique, le format et les annotations le rendent pertinent pour l’anonymisation dans d’autres domaines sensibles comme la santé ou l’éducation.

Peut-on entraîner un modèle de NER uniquement avec ce corpus ?

Oui, il contient suffisamment d’exemples annotés pour initier ou affiner un modèle de reconnaissance d'entités nommées.

Le corpus est-il multilingue ?

Non, il est uniquement en anglais. Il est cependant possible de le traduire ou de l’enrichir pour d’autres langues.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.