Web Page Phishing Detection Dataset
Conjunto de datos equilibrado de 11 430 URL anotadas (fraudulentas o legítimas), acompañado de 87 características textuales y estructurales extraídas de las páginas.
Descripción
El Web Page Phishing Detection Dataset es un recurso diseñado para desarrollar y evaluar sistemas de detección de suplantación de identidad mediante aprendizaje automático. Incluye 11 430 URL divididas en partes iguales entre las de suplantación de identidad y las legítimas. Cada URL está asociada a 87 características extraídas de su estructura, contenido HTML y servicios externos. Es un gran juego de entrenamiento para algoritmos de clasificación supervisados.
¿Para qué sirve este conjunto de datos?
- Desarrolle modelos de aprendizaje automático para detectar sitios de suplantación de identidad
- Evalúe la solidez de los sistemas de seguridad web frente a las amenazas modernas
- Cree herramientas para analizar automáticamente las URL sospechosas en los navegadores o antivirus
¿Se puede enriquecer o mejorar?
Sí. Puedes enriquecer el conjunto de datos añadiendo metadatos (geolocalización, historial de WHOIS), actualizar la validez de las URL o ampliarlo con nuevas clases, como el spam o el malware. También es posible enriquecer las funciones con vectores para la incrustación textual de contenido HTML.
🔎 En resumen
🧠 Recomendado para
- Analistas de ciberseguridad
- Investigadores de PNL aplicada
- Desarrolladores de soluciones antisuplantación de identidad
🔧 Herramientas compatibles
- Pandas
- Scikit-learn
- XGBoost
- LightGBM
- Tensorflow
💡 Consejo
Usa un modelo general (bosque aleatorio + XGBoost) para obtener muy buenos resultados desde el principio, sin ajustes complejos.
Preguntas frecuentes
¿Este conjunto de datos incluye el contenido HTML de las páginas?
No, solo se proporcionan las características extraídas. Sin embargo, es posible rastrear las páginas para extraer más información.
¿Siguen activas las URL?
El conjunto de datos no garantiza la validez actual de los enlaces. Se recomienda comprobar las URL antes de su uso operativo.
¿Se puede usar este conjunto de datos para entrenar un detector en tiempo real?
Sí, se adapta perfectamente al entrenamiento de modelos de detección en línea o está integrado en un navegador o proxy de filtrado.




