Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Web Page Phishing Detection Dataset
Texto

Web Page Phishing Detection Dataset

Conjunto de datos equilibrado de 11 430 URL anotadas (fraudulentas o legítimas), acompañado de 87 características textuales y estructurales extraídas de las páginas.

Obtén el dataset
Tamaño

11.430 entradas con 87 columnas, formato CSV tabular

Licencia

CC BY 4.0

Descripción

El Web Page Phishing Detection Dataset es un recurso diseñado para desarrollar y evaluar sistemas de detección de suplantación de identidad mediante aprendizaje automático. Incluye 11 430 URL divididas en partes iguales entre las de suplantación de identidad y las legítimas. Cada URL está asociada a 87 características extraídas de su estructura, contenido HTML y servicios externos. Es un gran juego de entrenamiento para algoritmos de clasificación supervisados.

¿Para qué sirve este conjunto de datos?

  • Desarrolle modelos de aprendizaje automático para detectar sitios de suplantación de identidad
  • Evalúe la solidez de los sistemas de seguridad web frente a las amenazas modernas
  • Cree herramientas para analizar automáticamente las URL sospechosas en los navegadores o antivirus

¿Se puede enriquecer o mejorar?

Sí. Puedes enriquecer el conjunto de datos añadiendo metadatos (geolocalización, historial de WHOIS), actualizar la validez de las URL o ampliarlo con nuevas clases, como el spam o el malware. También es posible enriquecer las funciones con vectores para la incrustación textual de contenido HTML.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐✩ (Listo para usar en clasificación supervisada)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Muy bajo – datos limpios y bien estructurados)
🏷️ Riqueza de anotaciones⭐⭐⭐⭐✩ (87 características + etiqueta binaria - phishing/legítimo)
📜 Licencia comercial✅ Sí (CC BY 4.0)
👨‍💻 Ideal para principiantes🌟 Buen punto de entrada para ciberseguridad aplicada
🔁 Reutilizable para fine-tuning🎯 Muy bueno para entrenar o evaluar modelos existentes
🌍 Diversidad cultural⚠️ URLs diversas, pero información limitada sobre procedencia geográfica

🧠 Recomendado para

  • Analistas de ciberseguridad
  • Investigadores de PNL aplicada
  • Desarrolladores de soluciones antisuplantación de identidad

🔧 Herramientas compatibles

  • Pandas
  • Scikit-learn
  • XGBoost
  • LightGBM
  • Tensorflow

💡 Consejo

Usa un modelo general (bosque aleatorio + XGBoost) para obtener muy buenos resultados desde el principio, sin ajustes complejos.

Preguntas frecuentes

¿Este conjunto de datos incluye el contenido HTML de las páginas?

No, solo se proporcionan las características extraídas. Sin embargo, es posible rastrear las páginas para extraer más información.

¿Siguen activas las URL?

El conjunto de datos no garantiza la validez actual de los enlaces. Se recomienda comprobar las URL antes de su uso operativo.

¿Se puede usar este conjunto de datos para entrenar un detector en tiempo real?

Sí, se adapta perfectamente al entrenamiento de modelos de detección en línea o está integrado en un navegador o proxy de filtrado.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.