Cybersecurity Heimdall v1.1
Jeu de données textuel structuré pour entraîner des modèles alignés et sécurisés dans le domaine de la cybersécurité défensive.
21 258 dialogues système/utilisateur/assistant en Parquet
Apache 2.0
Description
Cybersecurity Heimdall v1.1 est un dataset d’entraînement instructionnel dédié à la cybersécurité défensive. Il contient plus de 21 000 dialogues réalistes (triples system
/ user
/ assistant
), construits à partir de plus de 100 000 sources techniques publiques. Chaque échange est conçu pour suivre des standards de sécurité tels que OWASP, NIST CSF ou MITRE ATT&CK, tout en intégrant des refus explicites pour les requêtes malveillantes.
À quoi sert ce dataset ?
- Entraîner des modèles de langage spécialisés en cybersécurité défensive
- Améliorer l’alignement éthique des LLMs sur des questions techniques sensibles
- Servir de benchmark dans les tâches QA, classification ou synthèse en sécurité informatique
Peut-on l’enrichir ou l’améliorer ?
Oui. Il est possible d’ajouter des scénarios liés à des normes régionales (RGPD, ISO 27001), des traductions multilingues ou des annotations complémentaires (niveau de risque, type d'attaque). La structure triplet permet une personnalisation facile, adaptée au fine-tuning supervisé.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en cybersécurité
- Ingénieurs IA sécurité
- Créateurs d’agents en cybersécurité
🔧 Outils compatibles
- Hugging Face Transformers
- TRL
- QLoRA
- DeepSpeed
- LangChain
💡 Astuce
Utilisez les champs system pour injecter des contraintes éthiques et renforcer le refus automatique des prompts offensifs.
Questions fréquemment posées
Ce dataset inclut-il des exemples de red teaming ?
Non, il se concentre sur des approches défensives. Les tactiques offensives ne sont pas présentes afin de préserver un cadre sécurisé et éthique.
Ce dataset peut-il être utilisé dans un cadre professionnel ?
Oui, la licence Apache 2.0 permet une utilisation commerciale ou industrielle, à condition de respecter les conditions de licence.
Est-ce qu’il est multilingue ?
Non, il est principalement en anglais. Toutefois, il peut être enrichi avec des traductions pour des projets multilingues en cybersécurité.