Prompt Injections Dataset

El conjunto de datos Prompt Injections contiene ejemplos de inyecciones rápidas diseñadas para manipular o eludir los LLM. Incluye varias técnicas, como la filtración rápida, el jailbreak y el cambio, en varios idiomas.

Obtén el dataset

Tamaño

Más de 1000 ejemplos de texto, multilingües (7 idiomas), archivo CSV o similar

Licencia

Apache 2.0

Descripción

‍

Este conjunto de datos reúne más de 1000 ejemplos de inyecciones rápidas en varios idiomas (inglés, francés, alemán, español, italiano, portugués, rumano) en varios idiomas. Estos ejemplos ilustran técnicas para eludir y manipular los modelos lingüísticos, lo que permite comprender mejor y contrarrestar estos ataques.

‍

¿Para qué sirve este conjunto de datos?

‍

Mejorar la solidez de las LLM frente a las inyecciones maliciosas
Entrene modelos para detectar y neutralizar las inyecciones rápidas
Estudie los diferentes métodos para atacar los modelos lingüísticos

‍

¿Se puede enriquecer o mejorar?

‍

Sí, este corpus puede complementarse con ejemplos recientes o ejemplos específicos de ciertos contextos de uso. Una anotación adicional sobre la naturaleza de los ataques también puede mejorar su valor.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Simple, formato claro y solo texto)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Muy bajo – datos listos para usar)
🏷️ Riqueza de anotaciones	⭐⭐✩✩✩ (Básico – ejemplos sin anotación compleja)
📜 Licencia comercial	✅ Sí (Apache 2.0)
👨‍💻 Ideal para principiantes	✅ Sí, accesible para investigadores y desarrolladores
🔁 Reutilizable para fine-tuning	🛡️ Útil para fine-tuning en seguridad y control de modelos
🌍 Diversidad cultural	⚡ Multilingüe – 7 idiomas representados