TextOCR : Extraction de texte sur images naturelles
Corpus d’images naturelles annotées avec du texte pour l’entraînement de modèles de reconnaissance optique de caractères (OCR) et compréhension visuelle.
25 000 images, environ 1 million d’annotations de mots, formats PNG et JSON
CC0: Public Domain
Description
TextOCR est un jeu de données open-source conçu pour l’extraction de texte dans des images de scènes naturelles. Il contient plus de 25 000 images issues de TextVQA, enrichies de près d’un million d’annotations de mots. Les mots sont localisés par des polygones, ce qui permet des entraînements précis pour la reconnaissance optique de texte (OCR) sur des textes droits ou courbés, en conditions variées.
À quoi sert ce dataset ?
- Entraîner des modèles OCR capables de reconnaître du texte en contexte complexe (courbe, partiellement visible, etc.)
- Améliorer des modèles de VQA (Visual Question Answering) ou captioning multimodal
- Tester la robustesse des modèles à différents types de typographies et arrière-plans
Peut-on l’enrichir ou l’améliorer ?
Oui. Il est possible d’ajouter des langues supplémentaires, de combiner avec des données synthétiques, ou d’étendre la base à des tâches comme la classification de texte dans l’image. L’annotation peut aussi être enrichie avec des méta-informations sémantiques (lieu, type de panneau, etc.).
🔎 En résumé
🧠 Recommandé pour
- Projets OCR avancés
- VQA
- Compréhension d’images de rue
🔧 Outils compatibles
- PaddleOCR
- Tesseract
- Detectron2
- MMDetection
- EasyOCR
💡 Astuce
Pour de meilleures performances, utilisez un pipeline combinant détection de texte et reconnaissance OCR fine, basé sur les polygones fournis.
Questions fréquemment posées
Est-ce que le texte est toujours bien centré dans les images ?
Non, le texte est présent dans des contextes variés, parfois partiel ou en angle, ce qui en fait un bon défi pour les modèles OCR.
Le dataset contient-il uniquement de l’anglais ?
Principalement, oui. Toutefois, certains mots ou signes peuvent être multilingues selon le contexte des images.
Peut-on l’utiliser pour entraîner un modèle de captioning ?
Oui, combiné avec les annotations visuelles, il est possible d’utiliser ce dataset pour générer des légendes d’image contenant du texte.




