Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Cybersecurity Heimdall v1.1
Texto

Cybersecurity Heimdall v1.1

Conjunto de datos textuales estructurados para entrenar modelos alineados y seguros en el campo de la ciberseguridad defensiva.

Obtén el dataset
Tamaño

21.258 diálogos entre el sistema, el usuario y el asistente en Parquet

Licencia

Apache 2.0

Descripción

Ciberseguridad Heimdall v1.1 es un conjunto de datos de formación educativa dedicado a la ciberseguridad defensiva. Contiene más de 21 000 diálogos realistas (triples). Sistema / Usuario / ayudante), construido a partir de más de 100 000 fuentes técnicas públicas. Cada intercambio está diseñado para seguir estándares de seguridad como OWASP, NIST CSF o MITRE ATT&CK, al tiempo que integra la denegación explícita de solicitudes malintencionadas.

¿Para qué sirve este conjunto de datos?

  • Capacite modelos lingüísticos especializados en ciberseguridad defensiva
  • Mejorar la alineación ética de los LLM en cuestiones técnicas delicadas
  • Sirve de referencia en tareas de control de calidad, clasificación o síntesis en seguridad informática

¿Se puede enriquecer o mejorar?

Sí. Es posible añadir escenarios vinculados a estándares regionales (RGPD, ISO 27001), traducciones multilingües o anotaciones adicionales (nivel de riesgo, tipo de ataque). La estructura de tripletes permite una fácil personalización, adaptada a un ajuste supervisado.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐⭐ (Muy buena – formato estándar, bien estructurado)
🧼Limpieza requerida ⭐⭐⭐☆☆ (Baja – datos ya limpiados y validados)
🏷️Riqueza de anotaciones ⭐⭐⭐⭐⭐ (Excelente – estructura system/user/assistant, diversidad de dominios)
📜Licencia comercial ✅ Sí (Apache 2.0)
👨‍💻Ideal para principiantes ⚠️ No totalmente – contenido técnico dirigido a un público experto
🔁Reutilizable para fine-tuning 🔥 Perfecto para SFT LLMs defensivos
🌍Diversidad cultural 🌍 Limitado – principalmente enfocado en estándares occidentales (OWASP, NIST, MITRE)

🧠 Recomendado para

  • Investigadores de ciberseguridad
  • Ingenieros de seguridad de IA
  • Creadores de agentes alineados

🔧 Herramientas compatibles

  • Hugging Face Transformers
  • TRL
  • QLora
  • DeepSpeed
  • LangChain

💡 Consejo

Utilice los campos del sistema para introducir restricciones éticas y reforzar el rechazo automático de las indicaciones ofensivas.

Preguntas frecuentes

¿Este conjunto de datos incluye ejemplos de equipos rojos?

No, se centra en los enfoques defensivos. Las tácticas ofensivas no están presentes para mantener un marco ético y seguro.

¿Se puede usar este conjunto de datos en un entorno profesional?

Sí, la licencia Apache 2.0 permite el uso comercial o industrial, siempre que cumpla con las condiciones de la licencia.

¿Es multilingüe?

No, está casi todo en inglés. Sin embargo, se puede enriquecer con traducciones para proyectos de ciberseguridad multilingües.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.