Text Extraction for OCR
Conjunto de datos multimodal compuesto por imágenes de facturas y archivos XML que contienen los datos extraídos. Cada imagen está asociada a un archivo XML idéntico que se puede usar para extraer entidades como el número de factura, la fecha, el nombre de la empresa, el teléfono y la dirección.
Aproximadamente 1560 pares de archivos de imagen (facturas) y formatos XML, JPG/PNG y XML, datos tabulares extraídos
CC0: Dominio público
Descripción
El conjunto de datos Text Extraction for OCR contiene aproximadamente 1560 imágenes de facturas antiguas con sus correspondientes archivos XML. Estos archivos XML proporcionan información extraída de cada factura, incluidos el número de factura, la fecha, los nombres comerciales, los números de teléfono y las direcciones. Las imágenes suelen contener errores visuales, como la sustitución de caracteres (por ejemplo, la sustitución de «0» por «O»), que simulan condiciones reales.
¿Para qué sirve este conjunto de datos?
- Desarrolle y pruebe algoritmos de extracción de entidades (NER) específicos para los documentos de facturación
- Mejorar el reconocimiento de datos tabulares en imágenes complejas
- Creación de modelos de OCR que sean robustos frente a errores tipográficos o de calidad de imagen
¿Se puede enriquecer o mejorar?
Sí, es posible añadir anotaciones manuales adicionales para aumentar la riqueza de las entidades extraídas, o integrar otros tipos de documentos similares (recibos, órdenes de compra). La corrección de errores en XML también puede mejorar la calidad del conjunto de datos.
🔎 En resumen
🧠 Recomendado para
- Investigadores de OCR
- Desarrolladores de herramientas NER
- Proyectos de digitalización documental
🔧 Herramientas compatibles
- Tesseract
- EasyOCR
- SpaCy
- Transformers OCR
💡 Consejo
Combine el análisis visual de imágenes con los datos XML para mejorar la precisión de las extracciones.
Preguntas frecuentes
¿Se puede usar este conjunto de datos para extraer automáticamente los datos de las facturas?
Sí, está diseñado específicamente para extraer automáticamente las entidades clave de las imágenes de las facturas, con los archivos XML asociados.
¿Es necesario limpiar los archivos XML antes de usarlos?
Sí, hay algunos errores tipográficos en XML, es recomendable corregirlos para obtener mejores resultados.
¿El conjunto de datos solo contiene imágenes o también anotaciones?
Contiene imágenes de facturas y sus archivos XML estructurados que sirven como anotaciones.