Text Extraction for OCR

Dataset multimodal constitué d’images de factures et de fichiers XML contenant les données extraites. Chaque image est associée à un fichier XML identique permettant d’extraire des entités comme numéro de facture, date, nom d’entreprise, téléphone et adresse.

Télécharger le dataset

Taille

Environ 1560 paires fichiers images (factures) et XML, formats JPG/PNG et XML, données tabulaires extraites

Licence

CC0: Public Domain

Description

‍

Le dataset Text Extraction for OCR contient environ 1560 images de factures anciennes accompagnées de leurs fichiers XML correspondants. Ces fichiers XML fournissent des informations extraites de chaque facture, notamment le numéro de facture, la date, les noms d’entreprises, les numéros de téléphone et adresses. Les images contiennent souvent des erreurs visuelles comme des substitutions de caractères (ex. ‘0’ remplacé par ‘O’), simulant des conditions réelles.

‍

À quoi sert ce dataset ?

‍

Développer et tester des algorithmes d’extraction d’entités (NER) spécifiques à des documents factures
Améliorer la reconnaissance de données tabulaires dans des images complexes
Construire des modèles OCR robustes face aux erreurs typographiques ou de qualité d’image

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’ajouter des annotations manuelles supplémentaires pour augmenter la richesse des entités extraites, ou d’intégrer d’autres types de documents similaires (reçus, bons de commande). Un travail de correction des erreurs dans les XML peut également améliorer la qualité du dataset.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐☆☆ (Moyenne : nécessite traitement conjoint des images et XML)
🧼Besoin de nettoyage	⭐☆☆☆☆ (Important : erreurs dans les données XML à corriger)
🏷️Richesse des annotations	⭐⭐⭐☆☆ (Bonne : plusieurs entités extraites avec structure XML)
📜Licence commerciale	✅ Libre (CC0)
👨‍💻Idéal pour les débutants	⚠️ Moyen : nécessite connaissances OCR et XML
🔁Réutilisable en fine-tuning	🔥 Parfait pour entraînement de modèles OCR et NER spécifiques
🌍Diversité culturelle	🌍 Moyenne : dataset orienté factures, contexte non précisé

‍

🧠 Recommandé pour

Chercheurs en OCR
Développeurs d’outils NER
Projets de digitalisation documentaire

‍

🔧 Outils compatibles

Tesseract
EasyOCR
SpaCy
Transformers OCR

‍

💡 Astuce

Combinez l’analyse visuelle des images avec les données XML pour améliorer la précision des extractions.

Questions fréquemment posées

Ce dataset peut-il être utilisé pour extraire automatiquement les données de factures ?

Oui, il est conçu spécifiquement pour l’extraction automatique d’entités clés dans des images de factures, avec fichiers XML associés.

Faut-il nettoyer les fichiers XML avant utilisation ?

Oui, certaines erreurs typographiques sont présentes dans les XML, il est conseillé de les corriger pour de meilleurs résultats.

Le dataset contient-il uniquement des images ou aussi des annotations ?

Il contient à la fois les images de factures et leurs fichiers XML structurés qui servent d’annotations.

Datasets similaires

Texte

Open Payments Dataset

Texte

Civil Comments - Corpus de commentaires modérés et annotés pour toxicité

Texte

Synthetic Clinical Notes Embedded