Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Text Anonymization Benchmark
Texto

Text Anonymization Benchmark

Corpus estructurado de decisiones legales europeas anotadas para su anonimización: entidades nombradas, identificadores, atributos sensibles.

Obtén el dataset
Tamaño

1.268 documentos en inglés en formato JSON anotado

Licencia

MIT

Descripción

El conjunto de datos Text Anonymization Benchmark (TAB) reúne 1.268 sentencias en inglés del Tribunal Europeo de Derechos Humanos, cuidadosamente anotadas para el estudio y la modelización de la anonimización automática de documentos. Cada archivo contiene el texto original, los identificadores de las entidades nombradas (personas, lugares, etc.), su categoría semántica, su estado confidencial y sus relaciones de correferencia. El formato JSON Standoff permite una reutilización precisa en canalizaciones de PNL.

¿Para qué sirve este conjunto de datos?

  • Modelos de entrenamiento para la anonimización automática de textos legales o sensibles
  • Estudie los sesgos relacionados con la información personal y confidencial en los documentos
  • Pruebe los sistemas de detección y enmascaramiento de entidades con nombre (NER)

¿Se puede enriquecer o mejorar?

Sí. Es posible añadir otros idiomas o jurisdicciones para una mejor cobertura geográfica. Las anotaciones se pueden enriquecer con tipologías legales o metadatos adicionales (tipos de decisiones, duración, etc.). Este corpus también se puede cruzar con otros juegos para aumentar la diversidad de casos.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐✩ (Formato JSON claro y documentado)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Bajo: datos listos para usar)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐⭐ (Muy detallado - identificadores, categorías, correferencias)
📜 Licencia comercial✅ Sí (MIT)
👨‍💻 Ideal para principiantes⚠️ Accesible con bases en NLP
🔁 Reutilizable para fine-tuning🎯 Sí, ideal para NER, anonimización, clasificación
🌍 Diversidad cultural⚠️ Limitado a Europa y al inglés

🧠 Recomendado para

  • Investigadores de derecho digital
  • Proyectos de anonimización de PNL
  • Etiquetado legal

🔧 Herramientas compatibles

  • SpaCy
  • Hugging Face Transformers
  • Prodigy
  • Doccano

💡 Consejo

Para detectar sesgos, compare las anotaciones de varios anotadores mediante el campo annotator_id.

Preguntas frecuentes

¿Este conjunto de datos es adecuado para otras áreas además del derecho?

Sí, aunque proviene del ámbito legal, el formato y las anotaciones hacen que sea relevante para la anonimización en otras áreas sensibles como la salud o la educación.

¿Se puede entrenar un modelo NER solo con este corpus?

Sí, contiene suficientes ejemplos anotados para iniciar o refinar un modelo de reconocimiento de entidades con nombre.

¿El corpus es multilingüe?

No, solo está en inglés. Sin embargo, es posible traducirlo o enriquecerlo para otros idiomas.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.