Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Text Extraction for OCR
Multimodal

Text Extraction for OCR

Conjunto de datos multimodal compuesto por imágenes de facturas y archivos XML que contienen los datos extraídos. Cada imagen está asociada a un archivo XML idéntico que se puede usar para extraer entidades como el número de factura, la fecha, el nombre de la empresa, el teléfono y la dirección.

Obtén el dataset
Tamaño

Aproximadamente 1560 pares de archivos de imagen (facturas) y formatos XML, JPG/PNG y XML, datos tabulares extraídos

Licencia

CC0: Dominio público

Descripción

El conjunto de datos Text Extraction for OCR contiene aproximadamente 1560 imágenes de facturas antiguas con sus correspondientes archivos XML. Estos archivos XML proporcionan información extraída de cada factura, incluidos el número de factura, la fecha, los nombres comerciales, los números de teléfono y las direcciones. Las imágenes suelen contener errores visuales, como la sustitución de caracteres (por ejemplo, la sustitución de «0» por «O»), que simulan condiciones reales.

¿Para qué sirve este conjunto de datos?

  • Desarrolle y pruebe algoritmos de extracción de entidades (NER) específicos para los documentos de facturación
  • Mejorar el reconocimiento de datos tabulares en imágenes complejas
  • Creación de modelos de OCR que sean robustos frente a errores tipográficos o de calidad de imagen

¿Se puede enriquecer o mejorar?

Sí, es posible añadir anotaciones manuales adicionales para aumentar la riqueza de las entidades extraídas, o integrar otros tipos de documentos similares (recibos, órdenes de compra). La corrección de errores en XML también puede mejorar la calidad del conjunto de datos.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐☆☆ (Media: requiere manejo conjunto de imágenes y XML)
🧼Limpieza requerida ⭐☆☆☆☆ (Alta: errores en los datos XML deben corregirse)
🏷️Riqueza de anotaciones ⭐⭐⭐☆☆ (Buena: múltiples entidades extraídas con estructura XML)
📜Licencia comercial ✅ Libre (CC0)
👨‍💻Apto para principiantes ⚠️ Medio: requiere conocimientos de OCR y XML
🔁Reutilizable para fine-tuning 🔥 Perfecto para entrenar modelos OCR y NER específicos
🌍Diversidad cultural 🌍 Media: dataset orientado a facturas, contexto no especificado

🧠 Recomendado para

  • Investigadores de OCR
  • Desarrolladores de herramientas NER
  • Proyectos de digitalización documental

🔧 Herramientas compatibles

  • Tesseract
  • EasyOCR
  • SpaCy
  • Transformers OCR

💡 Consejo

Combine el análisis visual de imágenes con los datos XML para mejorar la precisión de las extracciones.

Preguntas frecuentes

¿Se puede usar este conjunto de datos para extraer automáticamente los datos de las facturas?

Sí, está diseñado específicamente para extraer automáticamente las entidades clave de las imágenes de las facturas, con los archivos XML asociados.

¿Es necesario limpiar los archivos XML antes de usarlos?

Sí, hay algunos errores tipográficos en XML, es recomendable corregirlos para obtener mejores resultados.

¿El conjunto de datos solo contiene imágenes o también anotaciones?

Contiene imágenes de facturas y sus archivos XML estructurados que sirven como anotaciones.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.