En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Web Page Phishing Detection Dataset
Texte

Web Page Phishing Detection Dataset

Dataset équilibré de 11 430 URLs annotées (phishing vs légitimes), accompagné de 87 caractéristiques textuelles et structurelles extraites des pages.

Télécharger le dataset
Taille

11 430 entrées avec 87 colonnes, format CSV tabulaire

Licence

CC BY 4.0

Description

Le Web Page Phishing Detection Dataset est une ressource conçue pour le développement et l’évaluation de systèmes de détection de phishing via l’apprentissage automatique. Il comprend 11 430 URLs réparties équitablement entre phishing et légitimes. Chaque URL est associée à 87 caractéristiques extraites de sa structure, de son contenu HTML et de services externes. C’est un excellent jeu d’entraînement pour les algorithmes de classification supervisée.

À quoi sert ce dataset ?

  • Développer des modèles de machine learning pour détecter les sites de phishing
  • Évaluer la robustesse des systèmes de sécurité web face à des menaces modernes
  • Créer des outils d’analyse automatique d’URLs suspects dans des navigateurs ou antivirus

Peut-on l’enrichir ou l’améliorer ?

Oui. On peut enrichir le dataset en ajoutant des métadonnées (géolocalisation, historique WHOIS), effectuer des mises à jour sur la validité des URLs, ou l’étendre avec de nouvelles classes comme spam ou malware. Il est aussi possible d’enrichir les features avec des vecteurs d’embedding textuel des contenus HTML.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐✩ (Prêt à l’emploi pour classification supervisée)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Très faible – données propres et bien structurées)
🏷️ Richesse des annotations⭐⭐⭐⭐✩ (87 features + étiquette binaire - phishing/légitime)
📜 Licence commerciale✅ Oui (CC BY 4.0)
👨‍💻 Idéal pour les débutants🌟 Bon point d’entrée pour la cybersécurité appliquée
🔁 Réutilisable en fine-tuning🎯 Très bon pour entraîner ou évaluer des modèles existants
🌍 Diversité culturelle⚠️ URLs diverses, mais informations limitées sur la provenance géographique

🧠 Recommandé pour

  • Analystes cybersécurité
  • Chercheurs en NLP appliqué
  • Développeurs de solutions anti-phishing

🔧 Outils compatibles

  • Pandas
  • Scikit-learn
  • XGBoost
  • LightGBM
  • Tensorflow

💡 Astuce

Utilisez un modèle d’ensemble (random forest + XGBoost) pour de très bons résultats dès le départ, sans tuning complexe.

Questions fréquemment posées

Ce dataset inclut-il le contenu HTML des pages ?

Non, seules les caractéristiques extraites sont fournies. Il est toutefois possible de crawler les pages pour extraire davantage d’informations.

Les URLs sont-elles encore actives ?

Le dataset ne garantit pas la validité actuelle des liens. Il est recommandé de vérifier les URLs avant exploitation opérationnelle.

Ce dataset peut-il être utilisé pour entraîner un détecteur en temps réel ?

Oui, il est parfaitement adapté pour entraîner des modèles de détection en ligne ou embarqués dans un navigateur ou proxy filtrant.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.