WebClick: punto de referencia multimodal para la navegación web
WebClick es un conjunto de datos de referencia multimodal diseñado para evaluar la capacidad de los modelos y los agentes para comprender y navegar por las interfaces web. Contiene capturas de pantalla anotadas con instrucciones en lenguaje natural y áreas de clic específicas.
1.639 imágenes PNG/JPEG, instrucciones de texto, coordenadas de cuadros delimitadores en JSON
Apache 2.0
Descripción
El conjunto de datos WebClick contiene 1.639 capturas de pantalla de sitios web comentados con instrucciones en lenguaje natural y recuadros delimitadores precisos. Estos datos provienen de tareas reales de agentes humanos y usuarios, que abarcan la navegación web, las compras en línea y la administración de calendarios.
¿Para qué sirve este conjunto de datos?
- Evaluar la comprensión de las interfaces de usuario mediante modelos multimodales
- Pruebe la capacidad de localizar con precisión los clics en respuesta a instrucciones en lenguaje natural
- Desarrolle y compare agentes inteligentes para la navegación web automatizada
¿Se puede enriquecer o mejorar?
Este conjunto de datos se puede enriquecer con anotaciones adicionales, como elementos interactivos complejos o contextos de varias páginas. La integración de datos de otros entornos web mejoraría la solidez de los modelos.
🔎 En resumen
🧠 Recomendado para
- Investigadores de IA multimodal
- Desarrolladores de agentes web
- Equipos de I+D, UX y navegación automatizada
🔧 Herramientas compatibles
- PyTorch
- TensorFlow
- Hugging Face
- Herramientas de anotación visual
💡 Consejo
Utilice técnicas avanzadas de delimitación espacial para maximizar la precisión de la ubicación de los clics.
Preguntas frecuentes
¿Qué datos se proporcionan en WebClick?
Capturas de pantalla del sitio web, instrucciones en lenguaje natural y coordenadas precisas de los cuadros delimitadores.
¿Este conjunto de datos es adecuado para crear agentes inteligentes para la navegación web?
Sí, le permite capacitar y evaluar a los agentes que pueden entender las instrucciones e interactuar con las interfaces web.
¿Cuáles son los escenarios de uso que cubre WebClick?
Navegación asistida por agentes, compras en línea, administración de calendarios y otras interacciones web complejas.




