WebClick – Benchmark multimodal pour navigation web
WebClick est un dataset benchmark multimodal conçu pour évaluer la capacité des modèles et agents à comprendre et naviguer dans des interfaces web. Il contient des captures d’écran annotées par des instructions en langage naturel et des zones de clic précises.
1 639 images PNG/JPEG, instructions textuelles, coordonnées de bounding box en JSON
Apache 2.0
Description
Le dataset WebClick contient 1 639 captures d’écran de sites web annotées avec des instructions en langage naturel et des zones de clic (bounding boxes) précises. Ces données proviennent de tâches réelles d’agents et d’utilisateurs humains, couvrant la navigation web, le shopping en ligne, et la gestion de calendriers.
À quoi sert ce dataset ?
- Évaluer la compréhension des interfaces utilisateur par des modèles multimodaux
- Tester la capacité de localisation précise de clics en réponse à des instructions en langage naturel
- Développer et benchmarker des agents intelligents pour la navigation web automatisée
Peut-on l’enrichir ou l’améliorer ?
Ce dataset peut être enrichi par des annotations supplémentaires, comme des éléments interactifs complexes ou des contextes multi-pages. L’intégration de données issues d’autres environnements web permettrait d’améliorer la robustesse des modèles.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en IA multimodale
- Développeurs d’agents web
- Équipes R&D UX et navigation automatisée
🔧 Outils compatibles
- PyTorch
- TensorFlow
- Hugging Face
- Outils d’annotation visuelle
💡 Astuce
Utiliser des techniques de grounding spatial avancées pour maximiser la précision de localisation des clics.
Questions fréquemment posées
Quelles données sont fournies dans WebClick ?
Des captures d’écran de sites web, des instructions en langage naturel, et des coordonnées précises de zones de clic (bounding boxes).
Ce dataset est-il adapté à la création d’agents intelligents pour la navigation web ?
Oui, il permet d’entraîner et d’évaluer des agents capables de comprendre les instructions et d’interagir avec des interfaces web.
Quels sont les scénarios d’utilisation couverts par WebClick ?
Navigation assistée par agent, shopping en ligne, gestion de calendriers, et d’autres interactions web complexes.




