En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Text Extraction for OCR
Multimodal

Text Extraction for OCR

Dataset multimodal constitué d’images de factures et de fichiers XML contenant les données extraites. Chaque image est associée à un fichier XML identique permettant d’extraire des entités comme numéro de facture, date, nom d’entreprise, téléphone et adresse.

Télécharger le dataset
Taille

Environ 1560 paires fichiers images (factures) et XML, formats JPG/PNG et XML, données tabulaires extraites

Licence

CC0: Public Domain

Description

Le dataset Text Extraction for OCR contient environ 1560 images de factures anciennes accompagnées de leurs fichiers XML correspondants. Ces fichiers XML fournissent des informations extraites de chaque facture, notamment le numéro de facture, la date, les noms d’entreprises, les numéros de téléphone et adresses. Les images contiennent souvent des erreurs visuelles comme des substitutions de caractères (ex. ‘0’ remplacé par ‘O’), simulant des conditions réelles.

À quoi sert ce dataset ?

  • Développer et tester des algorithmes d’extraction d’entités (NER) spécifiques à des documents factures
  • Améliorer la reconnaissance de données tabulaires dans des images complexes
  • Construire des modèles OCR robustes face aux erreurs typographiques ou de qualité d’image

Peut-on l’enrichir ou l’améliorer ?

Oui, il est possible d’ajouter des annotations manuelles supplémentaires pour augmenter la richesse des entités extraites, ou d’intégrer d’autres types de documents similaires (reçus, bons de commande). Un travail de correction des erreurs dans les XML peut également améliorer la qualité du dataset.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐☆☆ (Moyenne : nécessite traitement conjoint des images et XML)
🧼Besoin de nettoyage ⭐☆☆☆☆ (Important : erreurs dans les données XML à corriger)
🏷️Richesse des annotations ⭐⭐⭐☆☆ (Bonne : plusieurs entités extraites avec structure XML)
📜Licence commerciale ✅ Libre (CC0)
👨‍💻Idéal pour les débutants ⚠️ Moyen : nécessite connaissances OCR et XML
🔁Réutilisable en fine-tuning 🔥 Parfait pour entraînement de modèles OCR et NER spécifiques
🌍Diversité culturelle 🌍 Moyenne : dataset orienté factures, contexte non précisé

🧠 Recommandé pour

  • Chercheurs en OCR
  • Développeurs d’outils NER
  • Projets de digitalisation documentaire

🔧 Outils compatibles

  • Tesseract
  • EasyOCR
  • SpaCy
  • Transformers OCR

💡 Astuce

Combinez l’analyse visuelle des images avec les données XML pour améliorer la précision des extractions.

Questions fréquemment posées

Ce dataset peut-il être utilisé pour extraire automatiquement les données de factures ?

Oui, il est conçu spécifiquement pour l’extraction automatique d’entités clés dans des images de factures, avec fichiers XML associés.

Faut-il nettoyer les fichiers XML avant utilisation ?

Oui, certaines erreurs typographiques sont présentes dans les XML, il est conseillé de les corriger pour de meilleurs résultats.

Le dataset contient-il uniquement des images ou aussi des annotations ?

Il contient à la fois les images de factures et leurs fichiers XML structurés qui servent d’annotations.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.