Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
AyaVisionBench
Multimodal

AyaVisionBench

AyavisionBench es un punto de referencia diseñado para probar modelos de lenguaje visual en 23 idiomas, que abarcan 9 categorías de tareas, que van desde la comprensión gráfica hasta el OCR y la transcripción.

Obtén el dataset
Tamaño

3.105 pares de imágenes y preguntas JPG, 23 idiomas, tamaño total ~1,34 GB

Licencia

Apache 2.0

Descripción

AyaVisionBench es un conjunto de datos multilingüe diseñado para evaluar las capacidades de los modelos que combinan la visión y el lenguaje natural. Contiene imágenes en formato JPG asociadas a preguntas que requieren un contexto visual para ser respondidas, en 23 idiomas principales que abarcan aproximadamente la mitad de la población mundial. Las tareas incluyen la descripción de imágenes, la comprensión de gráficos, el reconocimiento óptico de caracteres y mucho más.

¿Para qué sirve este conjunto de datos?

  • Evaluar la comprensión multimodal y multilingüe de los modelos de IA
  • Pruebe la solidez en varias tareas visuales como el OCR, la transcripción y el razonamiento visual
  • Entrene modelos capaces de generalizar a varios idiomas y alfabetos

¿Se puede enriquecer o mejorar?

Sí, es posible añadir más idiomas, diversificar los tipos de imágenes o enriquecer las preguntas con anotaciones humanas para aumentar la calidad de las respuestas y la diversidad de los casos.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐✩ (Dataset claro, requiere gestión multilingüe)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Bajo – datos bien verificados)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐✩ (Bueno – preguntas variadas por imagen)
📜 Licencia comercial✅ Sí (Apache 2.0)
👨‍💻 Ideal para principiantes⚠️ Accesible para proyectos avanzados en multimodal
🔁 Reutilizable para fine-tuning✅ Perfecto para fine-tuning multimodal multilingüe
🌍 Diversidad cultural🌐 Muy alto – 23 idiomas de familias y escrituras diversas

🧠 Recomendado para

  • Investigadores de IA multimodal
  • Proyectos multilingües
  • Evaluación de modelos de lenguaje visual

🔧 Herramientas compatibles

  • Hugging Face Datasets
  • Transformers
  • PyTorch
  • TensorFlow
  • PIL

💡 Consejo

Utilice la validación de idiomas para maximizar la calidad en cada idioma.

Preguntas frecuentes

¿Cuántos idiomas cubre AyavisionBench?

El conjunto de datos incluye 23 idiomas diferentes, que abarcan una gran diversidad lingüística y escritural.

¿Qué tipos de tareas se incluyen en este conjunto de datos?

Las tareas incluyen la descripción de imágenes, el OCR, la comprensión gráfica, la transcripción, el reconocimiento visual y el razonamiento.

¿La licencia permite el uso comercial?

Sí, la licencia Apache 2.0 permite el uso comercial gratuito sujeto al cumplimiento de los términos.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.