Text Extraction for OCR
Dataset multimodal constitué d’images de factures et de fichiers XML contenant les données extraites. Chaque image est associée à un fichier XML identique permettant d’extraire des entités comme numéro de facture, date, nom d’entreprise, téléphone et adresse.
Environ 1560 paires fichiers images (factures) et XML, formats JPG/PNG et XML, données tabulaires extraites
CC0: Public Domain
Description
Le dataset Text Extraction for OCR contient environ 1560 images de factures anciennes accompagnées de leurs fichiers XML correspondants. Ces fichiers XML fournissent des informations extraites de chaque facture, notamment le numéro de facture, la date, les noms d’entreprises, les numéros de téléphone et adresses. Les images contiennent souvent des erreurs visuelles comme des substitutions de caractères (ex. ‘0’ remplacé par ‘O’), simulant des conditions réelles.
À quoi sert ce dataset ?
- Développer et tester des algorithmes d’extraction d’entités (NER) spécifiques à des documents factures
- Améliorer la reconnaissance de données tabulaires dans des images complexes
- Construire des modèles OCR robustes face aux erreurs typographiques ou de qualité d’image
Peut-on l’enrichir ou l’améliorer ?
Oui, il est possible d’ajouter des annotations manuelles supplémentaires pour augmenter la richesse des entités extraites, ou d’intégrer d’autres types de documents similaires (reçus, bons de commande). Un travail de correction des erreurs dans les XML peut également améliorer la qualité du dataset.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en OCR
- Développeurs d’outils NER
- Projets de digitalisation documentaire
🔧 Outils compatibles
- Tesseract
- EasyOCR
- SpaCy
- Transformers OCR
💡 Astuce
Combinez l’analyse visuelle des images avec les données XML pour améliorer la précision des extractions.
Questions fréquemment posées
Ce dataset peut-il être utilisé pour extraire automatiquement les données de factures ?
Oui, il est conçu spécifiquement pour l’extraction automatique d’entités clés dans des images de factures, avec fichiers XML associés.
Faut-il nettoyer les fichiers XML avant utilisation ?
Oui, certaines erreurs typographiques sont présentes dans les XML, il est conseillé de les corriger pour de meilleurs résultats.
Le dataset contient-il uniquement des images ou aussi des annotations ?
Il contient à la fois les images de factures et leurs fichiers XML structurés qui servent d’annotations.