TextOCR: Extracción de texto en imágenes naturales

Un corpus de imágenes naturales anotadas con texto para entrenar modelos de reconocimiento óptico de caracteres (OCR) y comprensión visual.

Obtén el dataset

Tamaño

25 000 imágenes, alrededor de 1 millón de anotaciones de palabras, formatos PNG y JSON

Licencia

CC0: Dominio público

Descripción

‍

Texto OCR es un conjunto de datos de código abierto diseñado para extraer texto de imágenes de escenas naturales. Contiene más de 25 000 imágenes de TextVQA, enriquecidas con casi 1 millón de anotaciones de palabras. Las palabras se ubican por polígonos, lo que permite un entrenamiento preciso para el reconocimiento óptico de texto (OCR) en textos rectos o curvos, en diversas condiciones.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene modelos de OCR capaces de reconocer texto en contextos complejos (curvos, parcialmente visibles, etc.)
Mejora de los modelos VQA (respuesta visual a preguntas) o los subtítulos multimodales
Pruebe la solidez de los modelos para diferentes tipos de fuentes y fondos

‍

¿Se puede enriquecer o mejorar?

‍

Sí. Es posible añadir idiomas adicionales, combinarlos con datos sintéticos o ampliar la base de datos a tareas como la clasificación del texto de la imagen. La anotación también se puede enriquecer con metainformación semántica (ubicación, tipo de panel, etc.).

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Alto – anotaciones JSON bien estructuradas)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Bajo – listo para entrenamiento)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Excelente – localización precisa hasta la palabra)
📜 Licencia comercial	✅ Sí (CC0)
👨‍💻 Ideal para principiantes	🌟 Sí – perfecto para iniciar proyectos OCR
🔁 Reutilizable para fine-tuning	🎯 Ideal para afinar modelos OCR o multimodales
🌍 Diversidad cultural	⚠️ Moderado – mayormente en inglés

‍

🧠 Recomendado para

Proyectos avanzados de OCR
VQA
Entender las imágenes callejeras

‍

🔧 Herramientas compatibles

PaddleOCR
Tesseract
Detectron2
MMDetection
EasyOCR

‍

💡 Consejo

Para obtener un mejor rendimiento, utilice una canalización que combine la detección de texto y el reconocimiento de OCR preciso en función de los polígonos proporcionados.

Preguntas frecuentes

¿El texto está siempre bien centrado en las imágenes?

No, el texto está presente en varios contextos, a veces de forma parcial o angular, lo que lo convierte en un buen desafío para los modelos de OCR.

¿El conjunto de datos solo contiene inglés?

En su mayoría sí. Sin embargo, algunas palabras o signos pueden ser multilingües según el contexto de las imágenes.

¿Se puede usar para entrenar un modelo de subtitulado?

Sí, en combinación con anotaciones visuales, es posible usar este conjunto de datos para generar títulos de imágenes que contengan texto.

Otros datasets

Audio

RAVDESS

Texto

Conjuntos de datos financieros de Kaggle

Imagen

Road Damage Detection Dataset