En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
AyaVisionBench
Multimodal

AyaVisionBench

AyaVisionBench est un benchmark conçu pour tester les modèles vision-langage dans 23 langues, couvrant 9 catégories de tâches, allant de la compréhension de graphiques au OCR et à la transcription.

Télécharger le dataset
Taille

3 105 paires image-question JPG, 23 langues, taille totale ~1.34 GB

Licence

Apache 2.0

Description

AyaVisionBench est un dataset multilingue destiné à évaluer les capacités des modèles combinant vision et langage naturel. Il contient des images au format JPG associées à des questions nécessitant un contexte visuel pour être répondues, dans 23 langues majeures couvrant environ la moitié de la population mondiale. Les tâches incluent la description d’images, la compréhension de graphiques, la reconnaissance optique de caractères, et plus.

À quoi sert ce dataset ?

  • Évaluer la compréhension multimodale et multilingue des modèles IA
  • Tester la robustesse sur diverses tâches visuelles comme OCR, transcription, raisonnement visuel
  • Former des modèles capables de généraliser à plusieurs langues et scripts

Peut-on l’enrichir ou l’améliorer ?

Oui, il est possible d’ajouter plus de langues, de diversifier les types d’images, ou d’enrichir les questions avec des annotations humaines pour augmenter la qualité des réponses et la diversité des cas.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐✩ (Dataset clair, nécessite gestion multilingue)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Faible – données bien vérifiées)
🏷️ Richesse des annotations⭐⭐⭐⭐✩ (Bonne – questions variées par image)
📜 Licence commerciale✅ Oui (Apache 2.0)
👨‍💻 Idéal pour les débutants⚠️ Accessible pour projets avancés en multimodal
🔁 Réutilisable en fine-tuning✅ Parfait pour fine-tuning multimodal multilingue
🌍 Diversité culturelle🌐 Très élevée – 23 langues de familles et scripts divers

🧠 Recommandé pour

  • Chercheurs en IA multimodale
  • Projets multilingues
  • Évaluation de modèles vision-langage

🔧 Outils compatibles

  • Hugging Face Datasets
  • Transformers
  • PyTorch
  • TensorFlow
  • PIL

💡 Astuce

Utiliser la validation linguistique pour maximiser la qualité sur chaque langue.

Questions fréquemment posées

Combien de langues sont couvertes par AyaVisionBench ?

Le dataset comprend 23 langues différentes, couvrant une grande diversité linguistique et scripturale.

Quels types de tâches sont inclus dans ce dataset ?

Les tâches incluent la description d’images, OCR, compréhension de graphiques, transcription, reconnaissance visuelle et raisonnement.

La licence permet-elle un usage commercial ?

Oui, la licence Apache 2.0 autorise un usage commercial libre sous réserve de respect des termes.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.