Cybersecurity Heimdall v1.1
Conjunto de datos textuales estructurados para entrenar modelos alineados y seguros en el campo de la ciberseguridad defensiva.
21.258 diálogos entre el sistema, el usuario y el asistente en Parquet
Apache 2.0
Descripción
Ciberseguridad Heimdall v1.1 es un conjunto de datos de formación educativa dedicado a la ciberseguridad defensiva. Contiene más de 21 000 diálogos realistas (triples). Sistema
/ Usuario
/ ayudante
), construido a partir de más de 100 000 fuentes técnicas públicas. Cada intercambio está diseñado para seguir estándares de seguridad como OWASP, NIST CSF o MITRE ATT&CK, al tiempo que integra la denegación explícita de solicitudes malintencionadas.
¿Para qué sirve este conjunto de datos?
- Capacite modelos lingüísticos especializados en ciberseguridad defensiva
- Mejorar la alineación ética de los LLM en cuestiones técnicas delicadas
- Sirve de referencia en tareas de control de calidad, clasificación o síntesis en seguridad informática
¿Se puede enriquecer o mejorar?
Sí. Es posible añadir escenarios vinculados a estándares regionales (RGPD, ISO 27001), traducciones multilingües o anotaciones adicionales (nivel de riesgo, tipo de ataque). La estructura de tripletes permite una fácil personalización, adaptada a un ajuste supervisado.
🔎 En resumen
🧠 Recomendado para
- Investigadores de ciberseguridad
- Ingenieros de seguridad de IA
- Creadores de agentes alineados
🔧 Herramientas compatibles
- Hugging Face Transformers
- TRL
- QLora
- DeepSpeed
- LangChain
💡 Consejo
Utilice los campos del sistema para introducir restricciones éticas y reforzar el rechazo automático de las indicaciones ofensivas.
Preguntas frecuentes
¿Este conjunto de datos incluye ejemplos de equipos rojos?
No, se centra en los enfoques defensivos. Las tácticas ofensivas no están presentes para mantener un marco ético y seguro.
¿Se puede usar este conjunto de datos en un entorno profesional?
Sí, la licencia Apache 2.0 permite el uso comercial o industrial, siempre que cumpla con las condiciones de la licencia.
¿Es multilingüe?
No, está casi todo en inglés. Sin embargo, se puede enriquecer con traducciones para proyectos de ciberseguridad multilingües.