Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
WebClick: punto de referencia multimodal para la navegación web
Multimodal

WebClick: punto de referencia multimodal para la navegación web

WebClick es un conjunto de datos de referencia multimodal diseñado para evaluar la capacidad de los modelos y los agentes para comprender y navegar por las interfaces web. Contiene capturas de pantalla anotadas con instrucciones en lenguaje natural y áreas de clic específicas.

Obtén el dataset
Tamaño

1.639 imágenes PNG/JPEG, instrucciones de texto, coordenadas de cuadros delimitadores en JSON

Licencia

Apache 2.0

Descripción

El conjunto de datos WebClick contiene 1.639 capturas de pantalla de sitios web comentados con instrucciones en lenguaje natural y recuadros delimitadores precisos. Estos datos provienen de tareas reales de agentes humanos y usuarios, que abarcan la navegación web, las compras en línea y la administración de calendarios.

¿Para qué sirve este conjunto de datos?

  • Evaluar la comprensión de las interfaces de usuario mediante modelos multimodales
  • Pruebe la capacidad de localizar con precisión los clics en respuesta a instrucciones en lenguaje natural
  • Desarrolle y compare agentes inteligentes para la navegación web automatizada

¿Se puede enriquecer o mejorar?

Este conjunto de datos se puede enriquecer con anotaciones adicionales, como elementos interactivos complejos o contextos de varias páginas. La integración de datos de otros entornos web mejoraría la solidez de los modelos.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (Bueno, formato JSON e imágenes fáciles de explotar)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Mínimo, anotaciones precisas y rigurosas)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐⭐ (Excelente, incluyendo instrucciones en lenguaje natural y bounding boxes exactas)
📜 Licencia comercial✅ Sí (Apache 2.0)
👨‍💻 Ideal para principiantes🌟 Sí, dataset bien documentado y estructurado
🔁 Reutilizable para fine-tuning🎯 Perfecto para entrenar modelos multimodales UI/lenguaje
🌍 Diversidad cultural⚠️ Principalmente en inglés, amplia variedad de sitios web

🧠 Recomendado para

  • Investigadores de IA multimodal
  • Desarrolladores de agentes web
  • Equipos de I+D, UX y navegación automatizada

🔧 Herramientas compatibles

  • PyTorch
  • TensorFlow
  • Hugging Face
  • Herramientas de anotación visual

💡 Consejo

Utilice técnicas avanzadas de delimitación espacial para maximizar la precisión de la ubicación de los clics.

Preguntas frecuentes

¿Qué datos se proporcionan en WebClick?

Capturas de pantalla del sitio web, instrucciones en lenguaje natural y coordenadas precisas de los cuadros delimitadores.

¿Este conjunto de datos es adecuado para crear agentes inteligentes para la navegación web?

Sí, le permite capacitar y evaluar a los agentes que pueden entender las instrucciones e interactuar con las interfaces web.

¿Cuáles son los escenarios de uso que cubre WebClick?

Navegación asistida por agentes, compras en línea, administración de calendarios y otras interacciones web complejas.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.