En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
WebClick – Benchmark multimodal pour navigation web
Multimodal

WebClick – Benchmark multimodal pour navigation web

WebClick est un dataset benchmark multimodal conçu pour évaluer la capacité des modèles et agents à comprendre et naviguer dans des interfaces web. Il contient des captures d’écran annotées par des instructions en langage naturel et des zones de clic précises.

Télécharger le dataset
Taille

1 639 images PNG/JPEG, instructions textuelles, coordonnées de bounding box en JSON

Licence

Apache 2.0

Description

Le dataset WebClick contient 1 639 captures d’écran de sites web annotées avec des instructions en langage naturel et des zones de clic (bounding boxes) précises. Ces données proviennent de tâches réelles d’agents et d’utilisateurs humains, couvrant la navigation web, le shopping en ligne, et la gestion de calendriers.

À quoi sert ce dataset ?

  • Évaluer la compréhension des interfaces utilisateur par des modèles multimodaux
  • Tester la capacité de localisation précise de clics en réponse à des instructions en langage naturel
  • Développer et benchmarker des agents intelligents pour la navigation web automatisée

Peut-on l’enrichir ou l’améliorer ?

Ce dataset peut être enrichi par des annotations supplémentaires, comme des éléments interactifs complexes ou des contextes multi-pages. L’intégration de données issues d’autres environnements web permettrait d’améliorer la robustesse des modèles.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Bonne, format JSON et images faciles à exploiter)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Minimal, annotations précises et rigoureuses)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Excellente, incluant instructions en langage naturel et bounding boxes exactes)
📜 Licence commerciale✅ Oui (Apache 2.0)
👨‍💻 Idéal pour les débutants🌟 Oui, dataset bien documenté et structuré
🔁 Réutilisable en fine-tuning🎯 Parfait pour entraîner des modèles multimodaux UI/langage
🌍 Diversité culturelle⚠️ Principalement en anglais, large variété de sites web

🧠 Recommandé pour

  • Chercheurs en IA multimodale
  • Développeurs d’agents web
  • Équipes R&D UX et navigation automatisée

🔧 Outils compatibles

  • PyTorch
  • TensorFlow
  • Hugging Face
  • Outils d’annotation visuelle

💡 Astuce

Utiliser des techniques de grounding spatial avancées pour maximiser la précision de localisation des clics.

Questions fréquemment posées

Quelles données sont fournies dans WebClick ?

Des captures d’écran de sites web, des instructions en langage naturel, et des coordonnées précises de zones de clic (bounding boxes).

Ce dataset est-il adapté à la création d’agents intelligents pour la navigation web ?

Oui, il permet d’entraîner et d’évaluer des agents capables de comprendre les instructions et d’interagir avec des interfaces web.

Quels sont les scénarios d’utilisation couverts par WebClick ?

Navigation assistée par agent, shopping en ligne, gestion de calendriers, et d’autres interactions web complexes.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.