OCR Benchmark

Benchmark multimodal comparant les performances OCR et extraction JSON de différents modèles LLM, incluant GPT-4o et Gemini 2.0.

Télécharger le dataset

Taille

Environ 386 MB, 1000 exemples, format Parquet et JSON

Licence

MIT

Description

‍

Le dataset OCR Benchmark est un corpus d’évaluation complet conçu pour mesurer les capacités OCR et d’extraction de données JSON de modèles multimodaux avancés. Il contient 1000 exemples annotés servant à comparer des systèmes comme GPT-4o et Gemini 2.0.

‍

À quoi sert ce dataset ?

‍

Évaluer la précision OCR de modèles multimodaux
Comparer la qualité d’extraction de données structurées (JSON) par différents LLM
Tester et améliorer les capacités de compréhension visuelle et textuelle combinées

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Ce benchmark peut être étendu avec plus d’exemples ou d’autres types de documents pour mieux couvrir les cas d’usage réels. L’ajout d’annotations supplémentaires sur la qualité ou les erreurs pourrait aussi être bénéfique.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐☆ (format standard, facile à intégrer dans pipelines d’évaluation)
🧼Besoin de nettoyage	⭐⭐⭐⭐☆ (faible, données prêtes à l’emploi)
🏷️Richesse des annotations	⭐⭐⭐⭐☆ (annotations OCR et JSON bien documentées)
📜Licence commerciale	✅ Oui (MIT)
👨‍💻Idéal pour les débutants	👨‍🎓 Oui, adapté pour tests basiques et avancés
🔁Réutilisable en fine-tuning	🔥 Peut servir pour affiner modèles OCR multimodaux
🌍Diversité culturelle	🌐 Principalement documents en anglais, potentiel d’extension multilingue