OCR Benchmark

Punto de referencia multimodal que compara el rendimiento de extracción de OCR y JSON de varios modelos de LLM, incluidos GPT-4o y Gemini 2.0.

Obtén el dataset

Tamaño

Aproximadamente 386 MB, 1000 ejemplos, formato Parquet y JSON

Licencia

MIT

Descripción

‍

El conjunto de datos Punto de referencia de OCR es un organismo de evaluación integral diseñado para medir las capacidades de extracción de datos de OCR y JSON de los modelos multimodales avanzados. Contiene 1000 ejemplos anotados que se pueden usar para comparar sistemas como GPT-4o y Gemini 2.0.

‍

¿Para qué sirve este conjunto de datos?

‍

Evalúe la precisión del OCR de los modelos multimodales
Compare la calidad de la extracción de datos estructurados (JSON) por diferentes LLM
Pon a prueba y mejora las habilidades combinadas de comprensión visual y textual

‍

¿Se puede enriquecer o mejorar?

‍

Este punto de referencia se puede ampliar con más ejemplos u otros tipos de documentos para cubrir mejor los casos de uso reales. Agregar anotaciones adicionales de calidad o error también podría ser beneficioso.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐☆ (formato estándar, fácil de integrar en pipelines de evaluación)
🧼Limpieza requerida	⭐⭐⭐⭐☆ (baja, datos listos para usar)
🏷️Riqueza de anotaciones	⭐⭐⭐⭐☆ (anotaciones OCR y JSON bien documentadas)
📜Licencia comercial	✅ Sí (MIT)
👨‍💻Ideal para principiantes	👨‍🎓 Sí, adecuado para pruebas básicas y avanzadas
🔁Reutilizable para fine-tuning	🔥 Puede usarse para afinar modelos OCR multimodales
🌍Diversidad cultural	🌐 Principalmente documentos en inglés, con potencial de expansión multilingüe

‍

🧠 Recomendado para

Investigadores de OCR
Desarrolladores multimodales de LLM
Ingenieros de QA

‍

🔧 Herramientas compatibles

Conjuntos de datos de Hugging Face
Pandas
Herramientas de evaluación de OCR
Marcos multimodales

‍

💡 Consejo

Utilice este punto de referencia para validar la solidez del OCR en varios documentos antes de la implementación.

Preguntas frecuentes

¿Este conjunto de datos contiene documentos en varios idiomas?

Principalmente en inglés, pero es posible ampliarlo con otros idiomas para las pruebas multilingües.

¿Cuál es el tamaño del conjunto de datos y en qué formato está?

Aproximadamente 386 MB, disponibles en formatos JSON y Parquet, con 1000 ejemplos.

¿Se puede usar este conjunto de datos para entrenar un modelo de OCR?

Sí, se puede usar para realizar ajustes, especialmente para mejorar la extracción multimodal de texto y datos estructurados.

Otros datasets

Multimodal

RL Mixed Dataset : imágenes matemáticas y problemas para el aprendizaje por refuerzo

Audio

Conjunto de datos TIMIT

Imagen

Fashion Product Images Small