En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Cybersecurity Heimdall v1.1
Texte

Cybersecurity Heimdall v1.1

Jeu de données textuel structuré pour entraîner des modèles alignés et sécurisés dans le domaine de la cybersécurité défensive.

Télécharger le dataset
Taille

21 258 dialogues système/utilisateur/assistant en Parquet

Licence

Apache 2.0

Description

Cybersecurity Heimdall v1.1 est un dataset d’entraînement instructionnel dédié à la cybersécurité défensive. Il contient plus de 21 000 dialogues réalistes (triples system / user / assistant), construits à partir de plus de 100 000 sources techniques publiques. Chaque échange est conçu pour suivre des standards de sécurité tels que OWASP, NIST CSF ou MITRE ATT&CK, tout en intégrant des refus explicites pour les requêtes malveillantes.

À quoi sert ce dataset ?

  • Entraîner des modèles de langage spécialisés en cybersécurité défensive
  • Améliorer l’alignement éthique des LLMs sur des questions techniques sensibles
  • Servir de benchmark dans les tâches QA, classification ou synthèse en sécurité informatique

Peut-on l’enrichir ou l’améliorer ?

Oui. Il est possible d’ajouter des scénarios liés à des normes régionales (RGPD, ISO 27001), des traductions multilingues ou des annotations complémentaires (niveau de risque, type d'attaque). La structure triplet permet une personnalisation facile, adaptée au fine-tuning supervisé.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐⭐ (Très bonne – format standard, bien structuré)
🧼Besoin de nettoyage ⭐⭐⭐☆☆ (Faible – données déjà nettoyées et validées)
🏷️Richesse des annotations ⭐⭐⭐⭐⭐ (Excellente – structure system/user/assistant, diversité de domaines)
📜Licence commerciale ✅ Oui (Apache 2.0)
👨‍💻Idéal pour les débutants ⚠️ Pas totalement – contenu technique destiné à un public averti
🔁Réutilisable en fine-tuning 🔥 Parfait pour SFT LLMs défensifs
🌍Diversité culturelle 🌍 Limité – principalement axé sur les standards occidentaux (OWASP, NIST, MITRE)

🧠 Recommandé pour

  • Chercheurs en cybersécurité
  • Ingénieurs IA sécurité
  • Créateurs d’agents en cybersécurité

🔧 Outils compatibles

  • Hugging Face Transformers
  • TRL
  • QLoRA
  • DeepSpeed
  • LangChain

💡 Astuce

Utilisez les champs system pour injecter des contraintes éthiques et renforcer le refus automatique des prompts offensifs.

Questions fréquemment posées

Ce dataset inclut-il des exemples de red teaming ?

Non, il se concentre sur des approches défensives. Les tactiques offensives ne sont pas présentes afin de préserver un cadre sécurisé et éthique.

Ce dataset peut-il être utilisé dans un cadre professionnel ?

Oui, la licence Apache 2.0 permet une utilisation commerciale ou industrielle, à condition de respecter les conditions de licence.

Est-ce qu’il est multilingue ?

Non, il est principalement en anglais. Toutefois, il peut être enrichi avec des traductions pour des projets multilingues en cybersécurité.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.