Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
TextOCR: Extracción de texto en imágenes naturales
Imagen

TextOCR: Extracción de texto en imágenes naturales

Un corpus de imágenes naturales anotadas con texto para entrenar modelos de reconocimiento óptico de caracteres (OCR) y comprensión visual.

Obtén el dataset
Tamaño

25 000 imágenes, alrededor de 1 millón de anotaciones de palabras, formatos PNG y JSON

Licencia

CC0: Dominio público

Descripción

Texto OCR es un conjunto de datos de código abierto diseñado para extraer texto de imágenes de escenas naturales. Contiene más de 25 000 imágenes de TextVQA, enriquecidas con casi 1 millón de anotaciones de palabras. Las palabras se ubican por polígonos, lo que permite un entrenamiento preciso para el reconocimiento óptico de texto (OCR) en textos rectos o curvos, en diversas condiciones.

¿Para qué sirve este conjunto de datos?

  • Entrene modelos de OCR capaces de reconocer texto en contextos complejos (curvos, parcialmente visibles, etc.)
  • Mejora de los modelos VQA (respuesta visual a preguntas) o los subtítulos multimodales
  • Pruebe la solidez de los modelos para diferentes tipos de fuentes y fondos

¿Se puede enriquecer o mejorar?

Sí. Es posible añadir idiomas adicionales, combinarlos con datos sintéticos o ampliar la base de datos a tareas como la clasificación del texto de la imagen. La anotación también se puede enriquecer con metainformación semántica (ubicación, tipo de panel, etc.).

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (Alto – anotaciones JSON bien estructuradas)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Bajo – listo para entrenamiento)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐⭐ (Excelente – localización precisa hasta la palabra)
📜 Licencia comercial✅ Sí (CC0)
👨‍💻 Ideal para principiantes🌟 Sí – perfecto para iniciar proyectos OCR
🔁 Reutilizable para fine-tuning🎯 Ideal para afinar modelos OCR o multimodales
🌍 Diversidad cultural⚠️ Moderado – mayormente en inglés

🧠 Recomendado para

  • Proyectos avanzados de OCR
  • VQA
  • Entender las imágenes callejeras

🔧 Herramientas compatibles

  • PaddleOCR
  • Tesseract
  • Detectron2
  • MMDetection
  • EasyOCR

💡 Consejo

Para obtener un mejor rendimiento, utilice una canalización que combine la detección de texto y el reconocimiento de OCR preciso en función de los polígonos proporcionados.

Preguntas frecuentes

¿El texto está siempre bien centrado en las imágenes?

No, el texto está presente en varios contextos, a veces de forma parcial o angular, lo que lo convierte en un buen desafío para los modelos de OCR.

¿El conjunto de datos solo contiene inglés?

En su mayoría sí. Sin embargo, algunas palabras o signos pueden ser multilingües según el contexto de las imágenes.

¿Se puede usar para entrenar un modelo de subtitulado?

Sí, en combinación con anotaciones visuales, es posible usar este conjunto de datos para generar títulos de imágenes que contengan texto.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.