Cybersecurity Heimdall v1.1

Jeu de données textuel structuré pour entraîner des modèles alignés et sécurisés dans le domaine de la cybersécurité défensive.

Télécharger le dataset

Taille

21 258 dialogues système/utilisateur/assistant en Parquet

Licence

Apache 2.0

Description

‍

Cybersecurity Heimdall v1.1 est un dataset d’entraînement instructionnel dédié à la cybersécurité défensive. Il contient plus de 21 000 dialogues réalistes (triples system / user / assistant), construits à partir de plus de 100 000 sources techniques publiques. Chaque échange est conçu pour suivre des standards de sécurité tels que OWASP, NIST CSF ou MITRE ATT&CK, tout en intégrant des refus explicites pour les requêtes malveillantes.

‍

À quoi sert ce dataset ?

‍

Entraîner des modèles de langage spécialisés en cybersécurité défensive
Améliorer l’alignement éthique des LLMs sur des questions techniques sensibles
Servir de benchmark dans les tâches QA, classification ou synthèse en sécurité informatique

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. Il est possible d’ajouter des scénarios liés à des normes régionales (RGPD, ISO 27001), des traductions multilingues ou des annotations complémentaires (niveau de risque, type d'attaque). La structure triplet permet une personnalisation facile, adaptée au fine-tuning supervisé.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐⭐ (Très bonne – format standard, bien structuré)
🧼Besoin de nettoyage	⭐⭐⭐☆☆ (Faible – données déjà nettoyées et validées)
🏷️Richesse des annotations	⭐⭐⭐⭐⭐ (Excellente – structure `system/user/assistant`, diversité de domaines)
📜Licence commerciale	✅ Oui (Apache 2.0)
👨‍💻Idéal pour les débutants	⚠️ Pas totalement – contenu technique destiné à un public averti
🔁Réutilisable en fine-tuning	🔥 Parfait pour SFT LLMs défensifs
🌍Diversité culturelle	🌍 Limité – principalement axé sur les standards occidentaux (OWASP, NIST, MITRE)

‍

🧠 Recommandé pour

Chercheurs en cybersécurité
Ingénieurs IA sécurité
Créateurs d’agents en cybersécurité

‍

🔧 Outils compatibles

Hugging Face Transformers
TRL
QLoRA
DeepSpeed
LangChain

‍

💡 Astuce

Utilisez les champs system pour injecter des contraintes éthiques et renforcer le refus automatique des prompts offensifs.

Questions fréquemment posées

Ce dataset inclut-il des exemples de red teaming ?

Non, il se concentre sur des approches défensives. Les tactiques offensives ne sont pas présentes afin de préserver un cadre sécurisé et éthique.

Ce dataset peut-il être utilisé dans un cadre professionnel ?

Oui, la licence Apache 2.0 permet une utilisation commerciale ou industrielle, à condition de respecter les conditions de licence.

Est-ce qu’il est multilingue ?

Non, il est principalement en anglais. Toutefois, il peut être enrichi avec des traductions pour des projets multilingues en cybersécurité.

Datasets similaires

Multimodal

RL Mixed Dataset – Images et problèmes mathématiques pour apprentissage par renforcement

Audio

GigaSpeech

Image

Crop and Weed Detection Data with Bounding Boxes