AyaVisionBench

AyaVisionBench est un benchmark conçu pour tester les modèles vision-langage dans 23 langues, couvrant 9 catégories de tâches, allant de la compréhension de graphiques au OCR et à la transcription.

Télécharger le dataset

Taille

3 105 paires image-question JPG, 23 langues, taille totale ~1.34 GB

Licence

Apache 2.0

Description

‍

AyaVisionBench est un dataset multilingue destiné à évaluer les capacités des modèles combinant vision et langage naturel. Il contient des images au format JPG associées à des questions nécessitant un contexte visuel pour être répondues, dans 23 langues majeures couvrant environ la moitié de la population mondiale. Les tâches incluent la description d’images, la compréhension de graphiques, la reconnaissance optique de caractères, et plus.

‍

À quoi sert ce dataset ?

‍

Évaluer la compréhension multimodale et multilingue des modèles IA
Tester la robustesse sur diverses tâches visuelles comme OCR, transcription, raisonnement visuel
Former des modèles capables de généraliser à plusieurs langues et scripts

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’ajouter plus de langues, de diversifier les types d’images, ou d’enrichir les questions avec des annotations humaines pour augmenter la qualité des réponses et la diversité des cas.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐✩ (Dataset clair, nécessite gestion multilingue)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Faible – données bien vérifiées)
🏷️ Richesse des annotations	⭐⭐⭐⭐✩ (Bonne – questions variées par image)
📜 Licence commerciale	✅ Oui (Apache 2.0)
👨‍💻 Idéal pour les débutants	⚠️ Accessible pour projets avancés en multimodal
🔁 Réutilisable en fine-tuning	✅ Parfait pour fine-tuning multimodal multilingue
🌍 Diversité culturelle	🌐 Très élevée – 23 langues de familles et scripts divers