En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
TextOCR : Extraction de texte sur images naturelles
Image

TextOCR : Extraction de texte sur images naturelles

Corpus d’images naturelles annotées avec du texte pour l’entraînement de modèles de reconnaissance optique de caractères (OCR) et compréhension visuelle.

Télécharger le dataset
Taille

25 000 images, environ 1 million d’annotations de mots, formats PNG et JSON

Licence

CC0: Public Domain

Description

TextOCR est un jeu de données open-source conçu pour l’extraction de texte dans des images de scènes naturelles. Il contient plus de 25 000 images issues de TextVQA, enrichies de près d’un million d’annotations de mots. Les mots sont localisés par des polygones, ce qui permet des entraînements précis pour la reconnaissance optique de texte (OCR) sur des textes droits ou courbés, en conditions variées.

À quoi sert ce dataset ?

  • Entraîner des modèles OCR capables de reconnaître du texte en contexte complexe (courbe, partiellement visible, etc.)
  • Améliorer des modèles de VQA (Visual Question Answering) ou captioning multimodal
  • Tester la robustesse des modèles à différents types de typographies et arrière-plans

Peut-on l’enrichir ou l’améliorer ?

Oui. Il est possible d’ajouter des langues supplémentaires, de combiner avec des données synthétiques, ou d’étendre la base à des tâches comme la classification de texte dans l’image. L’annotation peut aussi être enrichie avec des méta-informations sémantiques (lieu, type de panneau, etc.).

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Haute – annotations JSON bien structurées)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Faible – prêt à l’emploi pour entraînement)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Excellente – localisation fine au mot près)
📜 Licence commerciale✅ Oui (CC0)
👨‍💻 Idéal pour les débutants🌟 Oui – parfait pour initier des projets OCR
🔁 Réutilisable en fine-tuning🎯 Idéal pour affiner des modèles OCR ou multimodaux
🌍 Diversité culturelle⚠️ Moyenne – majoritairement en anglais

🧠 Recommandé pour

  • Projets OCR avancés
  • VQA
  • Compréhension d’images de rue

🔧 Outils compatibles

  • PaddleOCR
  • Tesseract
  • Detectron2
  • MMDetection
  • EasyOCR

💡 Astuce

Pour de meilleures performances, utilisez un pipeline combinant détection de texte et reconnaissance OCR fine, basé sur les polygones fournis.

Questions fréquemment posées

Est-ce que le texte est toujours bien centré dans les images ?

Non, le texte est présent dans des contextes variés, parfois partiel ou en angle, ce qui en fait un bon défi pour les modèles OCR.

Le dataset contient-il uniquement de l’anglais ?

Principalement, oui. Toutefois, certains mots ou signes peuvent être multilingues selon le contexte des images.

Peut-on l’utiliser pour entraîner un modèle de captioning ?

Oui, combiné avec les annotations visuelles, il est possible d’utiliser ce dataset pour générer des légendes d’image contenant du texte.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.