Web Page Phishing Detection Dataset
Dataset équilibré de 11 430 URLs annotées (phishing vs légitimes), accompagné de 87 caractéristiques textuelles et structurelles extraites des pages.
Description
Le Web Page Phishing Detection Dataset est une ressource conçue pour le développement et l’évaluation de systèmes de détection de phishing via l’apprentissage automatique. Il comprend 11 430 URLs réparties équitablement entre phishing et légitimes. Chaque URL est associée à 87 caractéristiques extraites de sa structure, de son contenu HTML et de services externes. C’est un excellent jeu d’entraînement pour les algorithmes de classification supervisée.
À quoi sert ce dataset ?
- Développer des modèles de machine learning pour détecter les sites de phishing
- Évaluer la robustesse des systèmes de sécurité web face à des menaces modernes
- Créer des outils d’analyse automatique d’URLs suspects dans des navigateurs ou antivirus
Peut-on l’enrichir ou l’améliorer ?
Oui. On peut enrichir le dataset en ajoutant des métadonnées (géolocalisation, historique WHOIS), effectuer des mises à jour sur la validité des URLs, ou l’étendre avec de nouvelles classes comme spam ou malware. Il est aussi possible d’enrichir les features avec des vecteurs d’embedding textuel des contenus HTML.
🔎 En résumé
🧠 Recommandé pour
- Analystes cybersécurité
- Chercheurs en NLP appliqué
- Développeurs de solutions anti-phishing
🔧 Outils compatibles
- Pandas
- Scikit-learn
- XGBoost
- LightGBM
- Tensorflow
💡 Astuce
Utilisez un modèle d’ensemble (random forest + XGBoost) pour de très bons résultats dès le départ, sans tuning complexe.
Questions fréquemment posées
Ce dataset inclut-il le contenu HTML des pages ?
Non, seules les caractéristiques extraites sont fournies. Il est toutefois possible de crawler les pages pour extraire davantage d’informations.
Les URLs sont-elles encore actives ?
Le dataset ne garantit pas la validité actuelle des liens. Il est recommandé de vérifier les URLs avant exploitation opérationnelle.
Ce dataset peut-il être utilisé pour entraîner un détecteur en temps réel ?
Oui, il est parfaitement adapté pour entraîner des modèles de détection en ligne ou embarqués dans un navigateur ou proxy filtrant.



