Cybersecurity Heimdall v1.1

Conjunto de datos textuales estructurados para entrenar modelos alineados y seguros en el campo de la ciberseguridad defensiva.

Obtén el dataset

Tamaño

21.258 diálogos entre el sistema, el usuario y el asistente en Parquet

Licencia

Apache 2.0

Descripción

‍

Ciberseguridad Heimdall v1.1 es un conjunto de datos de formación educativa dedicado a la ciberseguridad defensiva. Contiene más de 21 000 diálogos realistas (triples). Sistema / Usuario / ayudante), construido a partir de más de 100 000 fuentes técnicas públicas. Cada intercambio está diseñado para seguir estándares de seguridad como OWASP, NIST CSF o MITRE ATT&CK, al tiempo que integra la denegación explícita de solicitudes malintencionadas.

‍

¿Para qué sirve este conjunto de datos?

‍

Capacite modelos lingüísticos especializados en ciberseguridad defensiva
Mejorar la alineación ética de los LLM en cuestiones técnicas delicadas
Sirve de referencia en tareas de control de calidad, clasificación o síntesis en seguridad informática

‍

¿Se puede enriquecer o mejorar?

‍

Sí. Es posible añadir escenarios vinculados a estándares regionales (RGPD, ISO 27001), traducciones multilingües o anotaciones adicionales (nivel de riesgo, tipo de ataque). La estructura de tripletes permite una fácil personalización, adaptada a un ajuste supervisado.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐⭐ (Muy buena – formato estándar, bien estructurado)
🧼Limpieza requerida	⭐⭐⭐☆☆ (Baja – datos ya limpiados y validados)
🏷️Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Excelente – estructura `system/user/assistant`, diversidad de dominios)
📜Licencia comercial	✅ Sí (Apache 2.0)
👨‍💻Ideal para principiantes	⚠️ No totalmente – contenido técnico dirigido a un público experto
🔁Reutilizable para fine-tuning	🔥 Perfecto para SFT LLMs defensivos
🌍Diversidad cultural	🌍 Limitado – principalmente enfocado en estándares occidentales (OWASP, NIST, MITRE)