TextOCR : Extraction de texte sur images naturelles

Corpus d’images naturelles annotées avec du texte pour l’entraînement de modèles de reconnaissance optique de caractères (OCR) et compréhension visuelle.

Télécharger le dataset

Taille

25 000 images, environ 1 million d’annotations de mots, formats PNG et JSON

Licence

CC0: Public Domain

Description

‍

TextOCR est un jeu de données open-source conçu pour l’extraction de texte dans des images de scènes naturelles. Il contient plus de 25 000 images issues de TextVQA, enrichies de près d’un million d’annotations de mots. Les mots sont localisés par des polygones, ce qui permet des entraînements précis pour la reconnaissance optique de texte (OCR) sur des textes droits ou courbés, en conditions variées.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles OCR capables de reconnaître du texte en contexte complexe (courbe, partiellement visible, etc.)
Améliorer des modèles de VQA (Visual Question Answering) ou captioning multimodal
Tester la robustesse des modèles à différents types de typographies et arrière-plans

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. Il est possible d’ajouter des langues supplémentaires, de combiner avec des données synthétiques, ou d’étendre la base à des tâches comme la classification de texte dans l’image. L’annotation peut aussi être enrichie avec des méta-informations sémantiques (lieu, type de panneau, etc.).

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐⭐ (Haute – annotations JSON bien structurées)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible – prêt à l’emploi pour entraînement)
🏷️ Richesse des annotations	⭐⭐⭐⭐⭐ (Excellente – localisation fine au mot près)
📜 Licence commerciale	✅ Oui (CC0)
👨‍💻 Idéal pour les débutants	🌟 Oui – parfait pour initier des projets OCR
🔁 Réutilisable en fine-tuning	🎯 Idéal pour affiner des modèles OCR ou multimodaux
🌍 Diversité culturelle	⚠️ Moyenne – majoritairement en anglais