En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Prompt Injections Dataset
Texte

Prompt Injections Dataset

Le dataset Prompt Injections contient des exemples d’injections de prompt destinés à manipuler ou contourner les LLMs. Il inclut différentes techniques telles que le prompt leaking, jailbreaking et mode switching, dans plusieurs langues.

Télécharger le dataset
Taille

Plus de 1000 exemples textuels, multilingue (7 langues), fichier CSV ou similaire

Licence

Apache 2.0

Description

Ce dataset rassemble plus de 1000 exemples d’injections de prompts dans plusieurs langues (anglais, français, allemand, espagnol, italien, portugais, roumain). Ces exemples illustrent des techniques de contournement et manipulation des modèles de langage, permettant de mieux comprendre et contrer ces attaques.

À quoi sert ce dataset ?

  • Améliorer la robustesse des LLM face aux injections malveillantes
  • Former des modèles pour détecter et neutraliser les prompt injections
  • Étudier les différentes méthodes d’attaque sur les modèles de langage

Peut-on l’enrichir ou l’améliorer ?

Oui, ce corpus peut être complété par des exemples récents ou spécifiques à certains contextes d’utilisation. Une annotation supplémentaire sur la nature des attaques peut aussi améliorer sa valeur.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Simple, format clair et texte uniquement)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Très faible – données prêtes à l’emploi)
🏷️ Richesse des annotations⭐⭐✩✩✩ (Basique – exemples sans annotation complexe)
📜 Licence commerciale✅ Oui (Apache 2.0)
👨‍💻 Idéal pour les débutants✅ Oui, accessible pour les chercheurs et développeurs
🔁 Réutilisable en fine-tuning🛡️ Utile pour fine-tuning en sécurité et contrôle de modèles
🌍 Diversité culturelle⚡ Multilingue – 7 langues représentées

🧠 Recommandé pour

  • Chercheurs en sécurité IA
  • Développeurs de LLM
  • Analystes en NLP

🔧 Outils compatibles

  • Hugging Face
  • PyTorch
  • TensorFlow
  • Notebooks Jupyter

💡 Astuce

Traiter ces données avec précaution, en évitant leur usage malveillant, pour renforcer la sécurité des systèmes.

Questions fréquemment posées

Quelles techniques d’injection sont couvertes par ce dataset ?

Prompt leaking, jailbreaking, mode switching, et autres méthodes de contournement des LLM.

Ce dataset est-il uniquement en anglais ?

Non, il est multilingue avec 7 langues dont le français, l’anglais, l’allemand, l’espagnol, l’italien, le portugais et le roumain.

Peut-on utiliser ce dataset pour entraîner un modèle commercial ?

Oui, la licence Apache 2.0 permet une utilisation commerciale sous respect des conditions.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.