TextOCR: Extracción de texto en imágenes naturales
Un corpus de imágenes naturales anotadas con texto para entrenar modelos de reconocimiento óptico de caracteres (OCR) y comprensión visual.
25 000 imágenes, alrededor de 1 millón de anotaciones de palabras, formatos PNG y JSON
CC0: Dominio público
Descripción
Texto OCR es un conjunto de datos de código abierto diseñado para extraer texto de imágenes de escenas naturales. Contiene más de 25 000 imágenes de TextVQA, enriquecidas con casi 1 millón de anotaciones de palabras. Las palabras se ubican por polígonos, lo que permite un entrenamiento preciso para el reconocimiento óptico de texto (OCR) en textos rectos o curvos, en diversas condiciones.
¿Para qué sirve este conjunto de datos?
- Entrene modelos de OCR capaces de reconocer texto en contextos complejos (curvos, parcialmente visibles, etc.)
- Mejora de los modelos VQA (respuesta visual a preguntas) o los subtítulos multimodales
- Pruebe la solidez de los modelos para diferentes tipos de fuentes y fondos
¿Se puede enriquecer o mejorar?
Sí. Es posible añadir idiomas adicionales, combinarlos con datos sintéticos o ampliar la base de datos a tareas como la clasificación del texto de la imagen. La anotación también se puede enriquecer con metainformación semántica (ubicación, tipo de panel, etc.).
🔎 En resumen
🧠 Recomendado para
- Proyectos avanzados de OCR
- VQA
- Entender las imágenes callejeras
🔧 Herramientas compatibles
- PaddleOCR
- Tesseract
- Detectron2
- MMDetection
- EasyOCR
💡 Consejo
Para obtener un mejor rendimiento, utilice una canalización que combine la detección de texto y el reconocimiento de OCR preciso en función de los polígonos proporcionados.
Preguntas frecuentes
¿El texto está siempre bien centrado en las imágenes?
No, el texto está presente en varios contextos, a veces de forma parcial o angular, lo que lo convierte en un buen desafío para los modelos de OCR.
¿El conjunto de datos solo contiene inglés?
En su mayoría sí. Sin embargo, algunas palabras o signos pueden ser multilingües según el contexto de las imágenes.
¿Se puede usar para entrenar un modelo de subtitulado?
Sí, en combinación con anotaciones visuales, es posible usar este conjunto de datos para generar títulos de imágenes que contengan texto.




