AyaVisionBench
AyaVisionBench est un benchmark conçu pour tester les modèles vision-langage dans 23 langues, couvrant 9 catégories de tâches, allant de la compréhension de graphiques au OCR et à la transcription.
3 105 paires image-question JPG, 23 langues, taille totale ~1.34 GB
Apache 2.0
Description
AyaVisionBench est un dataset multilingue destiné à évaluer les capacités des modèles combinant vision et langage naturel. Il contient des images au format JPG associées à des questions nécessitant un contexte visuel pour être répondues, dans 23 langues majeures couvrant environ la moitié de la population mondiale. Les tâches incluent la description d’images, la compréhension de graphiques, la reconnaissance optique de caractères, et plus.
À quoi sert ce dataset ?
- Évaluer la compréhension multimodale et multilingue des modèles IA
- Tester la robustesse sur diverses tâches visuelles comme OCR, transcription, raisonnement visuel
- Former des modèles capables de généraliser à plusieurs langues et scripts
Peut-on l’enrichir ou l’améliorer ?
Oui, il est possible d’ajouter plus de langues, de diversifier les types d’images, ou d’enrichir les questions avec des annotations humaines pour augmenter la qualité des réponses et la diversité des cas.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en IA multimodale
- Projets multilingues
- Évaluation de modèles vision-langage
🔧 Outils compatibles
- Hugging Face Datasets
- Transformers
- PyTorch
- TensorFlow
- PIL
💡 Astuce
Utiliser la validation linguistique pour maximiser la qualité sur chaque langue.
Questions fréquemment posées
Combien de langues sont couvertes par AyaVisionBench ?
Le dataset comprend 23 langues différentes, couvrant une grande diversité linguistique et scripturale.
Quels types de tâches sont inclus dans ce dataset ?
Les tâches incluent la description d’images, OCR, compréhension de graphiques, transcription, reconnaissance visuelle et raisonnement.
La licence permet-elle un usage commercial ?
Oui, la licence Apache 2.0 autorise un usage commercial libre sous réserve de respect des termes.




