En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
WebCode2M
Multimodal

WebCode2M

WebCode2M est un dataset multimodal regroupant des captures d’écran de designs de pages web avec leur code HTML/CSS et informations de layout associées. Il vise à améliorer la génération automatique de code web.

Télécharger le dataset
Taille

3,171,024 instances, images PNG, code HTML/CSS en texte, fichiers Parquet (~1.1 To)

Licence

CC BY 4.0

Description

WebCode2M est un vaste dataset contenant plus de 3 millions d’exemples réels associant des images de designs web, leurs codes HTML/CSS correspondants et des données de mise en page (bounding boxes, hiérarchie). Ce dataset permet de former des modèles multimodaux capables de générer du code front-end à partir d’une image de design.

À quoi sert ce dataset ?

  • Former des modèles d’apprentissage multimodal pour la génération automatique de code web
  • Développer des outils d’assistance à la conception front-end par IA
  • Tester la robustesse des MLLMs dans la compréhension visuelle et textuelle des interfaces

Peut-on l’enrichir ou l’améliorer ?

Oui, on peut enrichir ce dataset par un filtrage plus poussé du contenu sensible, l’ajout de variantes linguistiques ou encore la documentation des différents styles CSS présents pour mieux guider l’apprentissage.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐✩✩✩ (Volumineux et nécessite ressources informatiques importantes)
🧼 Besoin de nettoyage⭐⭐⭐✩✩ (Modéré – nécessite filtrage contenu inapproprié possible)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Excellente – image, code, layout et métadonnées linguistiques)
📜 Licence commerciale✅ Oui (CC BY 4.0)
👨‍💻 Idéal pour les débutants⚠️ Non – usage recommandé aux utilisateurs avancés
🔁 Réutilisable en fine-tuning✅ Très adapté pour entraînement de MLLMs multimodaux
🌍 Diversité culturelle🈳 Bonne – support de 20 langues principales du web

🧠 Recommandé pour

  • Chercheurs en IA front-end
  • Développeurs de MLLMs multimodaux
  • Projets de génération d’interface utilisateur

🔧 Outils compatibles

  • PyTorch
  • TensorFlow
  • Hugging Face Datasets
  • Vision Transformer
  • Diffusers

💡 Astuce

Préférez l’usage de la version purifiée pour éviter les contenus inappropriés lors de l’entraînement.

Questions fréquemment posées

Ce dataset contient-il des données sensibles ou inappropriées ?

Oui, malgré un filtrage, une petite quantité de contenu inapproprié peut subsister. Une version "cleanée" est disponible.

Quelles sont les langues couvertes par ce dataset ?

Il couvre 20 langues principales, dont le français, anglais, chinois, arabe, espagnol, japonais, et plus.

Quelle est la taille totale du dataset ?

Environ 1.1 To de données au total, incluant images, codes et métadonnées en format Parquet.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.