WebCode2M
WebCode2M es un conjunto de datos multimodal que combina capturas de pantalla de diseños de páginas web con su código HTML/CSS y la información de diseño asociada. Su objetivo es mejorar la generación automática de código web.
3.171.024 instancias, imágenes PNG, código HTML/CSS en texto, archivos Parquet (~1,1 TB)
CC BY 4.0
Descripción
WebCode2M es un vasto conjunto de datos que contiene más de 3 millones de ejemplos reales que combinan imágenes de diseño web, sus códigos HTML/CSS correspondientes y datos de diseño (cuadros delimitadores, jerarquía). Este conjunto de datos permite crear modelos multimodales capaces de generar código de interfaz a partir de una imagen de diseño.
¿Para qué sirve este conjunto de datos?
- Entrenamiento de modelos de aprendizaje multimodales para la generación automática de código web
- Desarrolle herramientas de soporte de diseño de IA frontales
- Pruebe la solidez de los MLLM en la comprensión visual y textual de las interfaces
¿Se puede enriquecer o mejorar?
Sí, podemos enriquecer este conjunto de datos filtrando más minuciosamente el contenido confidencial, añadiendo variantes lingüísticas o incluso documentando los distintos estilos CSS presentes para guiar mejor el aprendizaje.
🔎 En resumen
🧠 Recomendado para
- Investigadores de IA de primera línea
- Desarrolladores de MLLM multimodales
- Proyectos de generación de interfaces de usuario
🔧 Herramientas compatibles
- PyTorch
- TensorFlow
- Hugging Face Datasets
- Vision Transformer
- Diffusers
💡 Consejo
Prefiere el uso de la versión purificada para evitar contenidos inapropiados durante el entrenamiento.
Preguntas frecuentes
¿Este conjunto de datos contiene datos sensibles o inapropiados?
Sí, a pesar del filtrado, es posible que quede una pequeña cantidad de contenido inapropiado. Hay disponible una versión purificada.
¿Cuáles son los idiomas incluidos en este conjunto de datos?
Abarca 20 idiomas principales, incluidos francés, inglés, chino, árabe, español, japonés y más.
¿Cuál es el tamaño total del conjunto de datos?
Aproximadamente 1,1 TB de datos en total, incluidas imágenes, códigos y metadatos en formato Parquet.




