WebCode2M
WebCode2M est un dataset multimodal regroupant des captures d’écran de designs de pages web avec leur code HTML/CSS et informations de layout associées. Il vise à améliorer la génération automatique de code web.
3,171,024 instances, images PNG, code HTML/CSS en texte, fichiers Parquet (~1.1 To)
CC BY 4.0
Description
WebCode2M est un vaste dataset contenant plus de 3 millions d’exemples réels associant des images de designs web, leurs codes HTML/CSS correspondants et des données de mise en page (bounding boxes, hiérarchie). Ce dataset permet de former des modèles multimodaux capables de générer du code front-end à partir d’une image de design.
À quoi sert ce dataset ?
- Former des modèles d’apprentissage multimodal pour la génération automatique de code web
- Développer des outils d’assistance à la conception front-end par IA
- Tester la robustesse des MLLMs dans la compréhension visuelle et textuelle des interfaces
Peut-on l’enrichir ou l’améliorer ?
Oui, on peut enrichir ce dataset par un filtrage plus poussé du contenu sensible, l’ajout de variantes linguistiques ou encore la documentation des différents styles CSS présents pour mieux guider l’apprentissage.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en IA front-end
- Développeurs de MLLMs multimodaux
- Projets de génération d’interface utilisateur
🔧 Outils compatibles
- PyTorch
- TensorFlow
- Hugging Face Datasets
- Vision Transformer
- Diffusers
💡 Astuce
Préférez l’usage de la version purifiée pour éviter les contenus inappropriés lors de l’entraînement.
Questions fréquemment posées
Ce dataset contient-il des données sensibles ou inappropriées ?
Oui, malgré un filtrage, une petite quantité de contenu inapproprié peut subsister. Une version "cleanée" est disponible.
Quelles sont les langues couvertes par ce dataset ?
Il couvre 20 langues principales, dont le français, anglais, chinois, arabe, espagnol, japonais, et plus.
Quelle est la taille totale du dataset ?
Environ 1.1 To de données au total, incluant images, codes et métadonnées en format Parquet.




