Text Anonymization Benchmark
Corpus estructurado de decisiones legales europeas anotadas para su anonimización: entidades nombradas, identificadores, atributos sensibles.
Descripción
El conjunto de datos Text Anonymization Benchmark (TAB) reúne 1.268 sentencias en inglés del Tribunal Europeo de Derechos Humanos, cuidadosamente anotadas para el estudio y la modelización de la anonimización automática de documentos. Cada archivo contiene el texto original, los identificadores de las entidades nombradas (personas, lugares, etc.), su categoría semántica, su estado confidencial y sus relaciones de correferencia. El formato JSON Standoff permite una reutilización precisa en canalizaciones de PNL.
¿Para qué sirve este conjunto de datos?
- Modelos de entrenamiento para la anonimización automática de textos legales o sensibles
- Estudie los sesgos relacionados con la información personal y confidencial en los documentos
- Pruebe los sistemas de detección y enmascaramiento de entidades con nombre (NER)
¿Se puede enriquecer o mejorar?
Sí. Es posible añadir otros idiomas o jurisdicciones para una mejor cobertura geográfica. Las anotaciones se pueden enriquecer con tipologías legales o metadatos adicionales (tipos de decisiones, duración, etc.). Este corpus también se puede cruzar con otros juegos para aumentar la diversidad de casos.
🔎 En resumen
🧠 Recomendado para
- Investigadores de derecho digital
- Proyectos de anonimización de PNL
- Etiquetado legal
🔧 Herramientas compatibles
- SpaCy
- Hugging Face Transformers
- Prodigy
- Doccano
💡 Consejo
Para detectar sesgos, compare las anotaciones de varios anotadores mediante el campo annotator_id.
Preguntas frecuentes
¿Este conjunto de datos es adecuado para otras áreas además del derecho?
Sí, aunque proviene del ámbito legal, el formato y las anotaciones hacen que sea relevante para la anonimización en otras áreas sensibles como la salud o la educación.
¿Se puede entrenar un modelo NER solo con este corpus?
Sí, contiene suficientes ejemplos anotados para iniciar o refinar un modelo de reconocimiento de entidades con nombre.
¿El corpus es multilingüe?
No, solo está en inglés. Sin embargo, es posible traducirlo o enriquecerlo para otros idiomas.




