Text Extraction for OCR

Conjunto de datos multimodal compuesto por imágenes de facturas y archivos XML que contienen los datos extraídos. Cada imagen está asociada a un archivo XML idéntico que se puede usar para extraer entidades como el número de factura, la fecha, el nombre de la empresa, el teléfono y la dirección.

Obtén el dataset

Tamaño

Aproximadamente 1560 pares de archivos de imagen (facturas) y formatos XML, JPG/PNG y XML, datos tabulares extraídos

Licencia

CC0: Dominio público

Descripción

‍

El conjunto de datos Text Extraction for OCR contiene aproximadamente 1560 imágenes de facturas antiguas con sus correspondientes archivos XML. Estos archivos XML proporcionan información extraída de cada factura, incluidos el número de factura, la fecha, los nombres comerciales, los números de teléfono y las direcciones. Las imágenes suelen contener errores visuales, como la sustitución de caracteres (por ejemplo, la sustitución de «0» por «O»), que simulan condiciones reales.

‍

¿Para qué sirve este conjunto de datos?

‍

Desarrolle y pruebe algoritmos de extracción de entidades (NER) específicos para los documentos de facturación
Mejorar el reconocimiento de datos tabulares en imágenes complejas
Creación de modelos de OCR que sean robustos frente a errores tipográficos o de calidad de imagen

‍

¿Se puede enriquecer o mejorar?

‍

Sí, es posible añadir anotaciones manuales adicionales para aumentar la riqueza de las entidades extraídas, o integrar otros tipos de documentos similares (recibos, órdenes de compra). La corrección de errores en XML también puede mejorar la calidad del conjunto de datos.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐☆☆ (Media: requiere manejo conjunto de imágenes y XML)
🧼Limpieza requerida	⭐☆☆☆☆ (Alta: errores en los datos XML deben corregirse)
🏷️Riqueza de anotaciones	⭐⭐⭐☆☆ (Buena: múltiples entidades extraídas con estructura XML)
📜Licencia comercial	✅ Libre (CC0)
👨‍💻Apto para principiantes	⚠️ Medio: requiere conocimientos de OCR y XML
🔁Reutilizable para fine-tuning	🔥 Perfecto para entrenar modelos OCR y NER específicos
🌍Diversidad cultural	🌍 Media: dataset orientado a facturas, contexto no especificado

‍

🧠 Recomendado para

Investigadores de OCR
Desarrolladores de herramientas NER
Proyectos de digitalización documental

‍

🔧 Herramientas compatibles

Tesseract
EasyOCR
SpaCy
Transformers OCR

‍

💡 Consejo

Combine el análisis visual de imágenes con los datos XML para mejorar la precisión de las extracciones.

Preguntas frecuentes

¿Se puede usar este conjunto de datos para extraer automáticamente los datos de las facturas?

Sí, está diseñado específicamente para extraer automáticamente las entidades clave de las imágenes de las facturas, con los archivos XML asociados.

¿Es necesario limpiar los archivos XML antes de usarlos?

Sí, hay algunos errores tipográficos en XML, es recomendable corregirlos para obtener mejores resultados.

¿El conjunto de datos solo contiene imágenes o también anotaciones?

Contiene imágenes de facturas y sus archivos XML estructurados que sirven como anotaciones.

Otros datasets

Imagen

Wildfire Prediction Dataset

Texto

FLORES+: referencia de traducción multilingüe

Texto

Conjunto de datos de Google Trends