Web Page Phishing Detection Dataset

Conjunto de datos equilibrado de 11 430 URL anotadas (fraudulentas o legítimas), acompañado de 87 características textuales y estructurales extraídas de las páginas.

Obtén el dataset

Tamaño

11.430 entradas con 87 columnas, formato CSV tabular

Licencia

CC BY 4.0

Descripción

‍

El Web Page Phishing Detection Dataset es un recurso diseñado para desarrollar y evaluar sistemas de detección de suplantación de identidad mediante aprendizaje automático. Incluye 11 430 URL divididas en partes iguales entre las de suplantación de identidad y las legítimas. Cada URL está asociada a 87 características extraídas de su estructura, contenido HTML y servicios externos. Es un gran juego de entrenamiento para algoritmos de clasificación supervisados.

‍

¿Para qué sirve este conjunto de datos?

‍

Desarrolle modelos de aprendizaje automático para detectar sitios de suplantación de identidad
Evalúe la solidez de los sistemas de seguridad web frente a las amenazas modernas
Cree herramientas para analizar automáticamente las URL sospechosas en los navegadores o antivirus

‍

¿Se puede enriquecer o mejorar?

‍

Sí. Puedes enriquecer el conjunto de datos añadiendo metadatos (geolocalización, historial de WHOIS), actualizar la validez de las URL o ampliarlo con nuevas clases, como el spam o el malware. También es posible enriquecer las funciones con vectores para la incrustación textual de contenido HTML.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐✩ (Listo para usar en clasificación supervisada)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Muy bajo – datos limpios y bien estructurados)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐✩ (87 características + etiqueta binaria - phishing/legítimo)
📜 Licencia comercial	✅ Sí (CC BY 4.0)
👨‍💻 Ideal para principiantes	🌟 Buen punto de entrada para ciberseguridad aplicada
🔁 Reutilizable para fine-tuning	🎯 Muy bueno para entrenar o evaluar modelos existentes
🌍 Diversidad cultural	⚠️ URLs diversas, pero información limitada sobre procedencia geográfica