WebCode2M

WebCode2M est un dataset multimodal regroupant des captures d’écran de designs de pages web avec leur code HTML/CSS et informations de layout associées. Il vise à améliorer la génération automatique de code web.

Télécharger le dataset

Taille

3,171,024 instances, images PNG, code HTML/CSS en texte, fichiers Parquet (~1.1 To)

Licence

CC BY 4.0

Description

‍

WebCode2M est un vaste dataset contenant plus de 3 millions d’exemples réels associant des images de designs web, leurs codes HTML/CSS correspondants et des données de mise en page (bounding boxes, hiérarchie). Ce dataset permet de former des modèles multimodaux capables de générer du code front-end à partir d’une image de design.

‍

À quoi sert ce dataset ?

‍

Former des modèles d’apprentissage multimodal pour la génération automatique de code web
Développer des outils d’assistance à la conception front-end par IA
Tester la robustesse des MLLMs dans la compréhension visuelle et textuelle des interfaces

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, on peut enrichir ce dataset par un filtrage plus poussé du contenu sensible, l’ajout de variantes linguistiques ou encore la documentation des différents styles CSS présents pour mieux guider l’apprentissage.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐✩✩✩ (Volumineux et nécessite ressources informatiques importantes)
🧼 Besoin de nettoyage	⭐⭐⭐✩✩ (Modéré – nécessite filtrage contenu inapproprié possible)
🏷️ Richesse des annotations	⭐⭐⭐⭐⭐ (Excellente – image, code, layout et métadonnées linguistiques)
📜 Licence commerciale	✅ Oui (CC BY 4.0)
👨‍💻 Idéal pour les débutants	⚠️ Non – usage recommandé aux utilisateurs avancés
🔁 Réutilisable en fine-tuning	✅ Très adapté pour entraînement de MLLMs multimodaux
🌍 Diversité culturelle	🈳 Bonne – support de 20 langues principales du web