AyaVisionBench

AyavisionBench es un punto de referencia diseñado para probar modelos de lenguaje visual en 23 idiomas, que abarcan 9 categorías de tareas, que van desde la comprensión gráfica hasta el OCR y la transcripción.

Obtén el dataset

Tamaño

3.105 pares de imágenes y preguntas JPG, 23 idiomas, tamaño total ~1,34 GB

Licencia

Apache 2.0

Descripción

‍

AyaVisionBench es un conjunto de datos multilingüe diseñado para evaluar las capacidades de los modelos que combinan la visión y el lenguaje natural. Contiene imágenes en formato JPG asociadas a preguntas que requieren un contexto visual para ser respondidas, en 23 idiomas principales que abarcan aproximadamente la mitad de la población mundial. Las tareas incluyen la descripción de imágenes, la comprensión de gráficos, el reconocimiento óptico de caracteres y mucho más.

‍

¿Para qué sirve este conjunto de datos?

‍

Evaluar la comprensión multimodal y multilingüe de los modelos de IA
Pruebe la solidez en varias tareas visuales como el OCR, la transcripción y el razonamiento visual
Entrene modelos capaces de generalizar a varios idiomas y alfabetos

‍

¿Se puede enriquecer o mejorar?

‍

Sí, es posible añadir más idiomas, diversificar los tipos de imágenes o enriquecer las preguntas con anotaciones humanas para aumentar la calidad de las respuestas y la diversidad de los casos.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐✩ (Dataset claro, requiere gestión multilingüe)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Bajo – datos bien verificados)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐✩ (Bueno – preguntas variadas por imagen)
📜 Licencia comercial	✅ Sí (Apache 2.0)
👨‍💻 Ideal para principiantes	⚠️ Accesible para proyectos avanzados en multimodal
🔁 Reutilizable para fine-tuning	✅ Perfecto para fine-tuning multimodal multilingüe
🌍 Diversidad cultural	🌐 Muy alto – 23 idiomas de familias y escrituras diversas