Web Page Phishing Detection Dataset

Dataset équilibré de 11 430 URLs annotées (phishing vs légitimes), accompagné de 87 caractéristiques textuelles et structurelles extraites des pages.

Télécharger le dataset

Taille

11 430 entrées avec 87 colonnes, format CSV tabulaire

Licence

CC BY 4.0

Description

‍

Le Web Page Phishing Detection Dataset est une ressource conçue pour le développement et l’évaluation de systèmes de détection de phishing via l’apprentissage automatique. Il comprend 11 430 URLs réparties équitablement entre phishing et légitimes. Chaque URL est associée à 87 caractéristiques extraites de sa structure, de son contenu HTML et de services externes. C’est un excellent jeu d’entraînement pour les algorithmes de classification supervisée.

‍

À quoi sert ce dataset ?

‍

Développer des modèles de machine learning pour détecter les sites de phishing
Évaluer la robustesse des systèmes de sécurité web face à des menaces modernes
Créer des outils d’analyse automatique d’URLs suspects dans des navigateurs ou antivirus

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. On peut enrichir le dataset en ajoutant des métadonnées (géolocalisation, historique WHOIS), effectuer des mises à jour sur la validité des URLs, ou l’étendre avec de nouvelles classes comme spam ou malware. Il est aussi possible d’enrichir les features avec des vecteurs d’embedding textuel des contenus HTML.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐✩ (Prêt à l’emploi pour classification supervisée)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Très faible – données propres et bien structurées)
🏷️ Richesse des annotations	⭐⭐⭐⭐✩ (87 features + étiquette binaire - phishing/légitime)
📜 Licence commerciale	✅ Oui (CC BY 4.0)
👨‍💻 Idéal pour les débutants	🌟 Bon point d’entrée pour la cybersécurité appliquée
🔁 Réutilisable en fine-tuning	🎯 Très bon pour entraîner ou évaluer des modèles existants
🌍 Diversité culturelle	⚠️ URLs diverses, mais informations limitées sur la provenance géographique