VisualWebInstruct

VisualWebInstruct est un large dataset multimodal composé de questions-réponses (QA) avec environ 40 % de données visuelles associées à plus de 163 000 images. Il couvre plusieurs domaines scientifiques et met l’accent sur le raisonnement complexe multi-étapes.

Télécharger le dataset

Taille

1,9 million d’exemples en format Parquet, 1,55 Go

Licence

Apache 2.0

Description

‍

VisualWebInstruct est un corpus d’instruction multimodal à grande échelle, combinant plus de 1,9 million de paires questions-réponses, dont une forte proportion avec images associées. Les domaines couverts incluent les mathématiques, la physique, la finance, la chimie, et plus encore. Le dataset est conçu pour améliorer la capacité de raisonnement des modèles vision-langage via des tâches complexes multi-étapes.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles multimodaux capables de raisonner sur des questions complexes mêlant texte et image
Améliorer la compréhension et la réponse dans des domaines scientifiques variés
Tester la robustesse des modèles sur des tâches de QA visuelles et textuelles

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Le dataset peut être enrichi par l’ajout de nouveaux domaines, l’extension des annotations visuelles ou textuelles, ainsi que par une augmentation du nombre d’images et de questions. L’intégration de feedback humain pour valider les réponses peut également améliorer la qualité.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐✩ (Données volumineuses mais bien organisées, format Parquet)
🧼 Besoin de nettoyage	⭐⭐⭐⭐✩ (Modéré : nécessite filtrage selon cas d’usage)
🏷️ Richesse des annotations	⭐⭐⭐⭐⭐ (Très riche : QA multimodal, nombreux domaines scientifiques)
📜 Licence commerciale	✅ Oui (Apache 2.0)
👨‍💻 Idéal pour les débutants	⚠️ Moyennement – bon pour utilisateurs avancés en multimodalité
🔁 Réutilisable en fine-tuning	✅ Parfait pour fine-tuning modèles vision-langage
🌍 Diversité culturelle	🌐 Large diversité de domaines et sources d’images