WebCode2M

WebCode2M es un conjunto de datos multimodal que combina capturas de pantalla de diseños de páginas web con su código HTML/CSS y la información de diseño asociada. Su objetivo es mejorar la generación automática de código web.

Obtén el dataset

Tamaño

3.171.024 instancias, imágenes PNG, código HTML/CSS en texto, archivos Parquet (~1,1 TB)

Licencia

CC BY 4.0

Descripción

‍

WebCode2M es un vasto conjunto de datos que contiene más de 3 millones de ejemplos reales que combinan imágenes de diseño web, sus códigos HTML/CSS correspondientes y datos de diseño (cuadros delimitadores, jerarquía). Este conjunto de datos permite crear modelos multimodales capaces de generar código de interfaz a partir de una imagen de diseño.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrenamiento de modelos de aprendizaje multimodales para la generación automática de código web
Desarrolle herramientas de soporte de diseño de IA frontales
Pruebe la solidez de los MLLM en la comprensión visual y textual de las interfaces

‍

¿Se puede enriquecer o mejorar?

‍

Sí, podemos enriquecer este conjunto de datos filtrando más minuciosamente el contenido confidencial, añadiendo variantes lingüísticas o incluso documentando los distintos estilos CSS presentes para guiar mejor el aprendizaje.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐✩✩✩ (Voluminoso y requiere recursos informáticos importantes)
🧼 Necesidad de limpieza	⭐⭐⭐✩✩ (Moderado – requiere filtrado de contenido inapropiado posible)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Excelente – imagen, código, layout y metadatos lingüísticos)
📜 Licencia comercial	✅ Sí (CC BY 4.0)
👨‍💻 Ideal para principiantes	⚠️ No – recomendado para usuarios avanzados
🔁 Reutilizable para fine-tuning	✅ Muy adecuado para entrenamiento de MLLMs multimodales
🌍 Diversidad cultural	🈳 Bueno – soporte de 20 idiomas principales de la web