Text Anonymization Benchmark
Corpus structuré de décisions juridiques européennes annotées pour l’anonymisation : entités nommées, identifiants, attributs sensibles.
Description
Le dataset Text Anonymization Benchmark (TAB) regroupe 1 268 jugements en anglais de la Cour européenne des droits de l’homme, minutieusement annotés pour l’étude et la modélisation de l’anonymisation automatique de documents. Chaque fichier contient le texte original, des identifiants d’entités nommées (personnes, lieux, etc.), leur catégorie sémantique, leur statut confidentiel, ainsi que des relations de coréférence. Le format JSON standoff permet une réutilisation fine dans des pipelines NLP.
À quoi sert ce dataset ?
- Entraîner des modèles pour l’anonymisation automatique de textes juridiques ou sensibles
- Étudier les biais liés aux informations personnelles et confidentielles dans les documents
- Tester des systèmes de détection et de masquage d’entités nommées (NER)
Peut-on l’enrichir ou l’améliorer ?
Oui. Il est possible d’ajouter d'autres langues ou juridictions pour une meilleure couverture géographique. Les annotations peuvent être enrichies avec des typologies juridiques ou des métadonnées supplémentaires (types de décisions, durée, etc.). Ce corpus peut aussi être croisé avec d’autres jeux pour augmenter la diversité des cas.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en droit numérique
- Projets d’anonymisation NLP
- Labellisation juridique
🔧 Outils compatibles
- SpaCy
- Hugging Face Transformers
- Prodigy
- Doccano
💡 Astuce
Pour détecter les biais, comparez les annotations de plusieurs annotateurs via le champ annotator_id.
Questions fréquemment posées
Ce dataset est-il adapté à d'autres domaines que le droit ?
Oui, bien qu’issu du domaine juridique, le format et les annotations le rendent pertinent pour l’anonymisation dans d’autres domaines sensibles comme la santé ou l’éducation.
Peut-on entraîner un modèle de NER uniquement avec ce corpus ?
Oui, il contient suffisamment d’exemples annotés pour initier ou affiner un modèle de reconnaissance d'entités nommées.
Le corpus est-il multilingue ?
Non, il est uniquement en anglais. Il est cependant possible de le traduire ou de l’enrichir pour d’autres langues.




