Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Prompt Injections Dataset
Texto

Prompt Injections Dataset

El conjunto de datos Prompt Injections contiene ejemplos de inyecciones rápidas diseñadas para manipular o eludir los LLM. Incluye varias técnicas, como la filtración rápida, el jailbreak y el cambio, en varios idiomas.

Obtén el dataset
Tamaño

Más de 1000 ejemplos de texto, multilingües (7 idiomas), archivo CSV o similar

Licencia

Apache 2.0

Descripción

Este conjunto de datos reúne más de 1000 ejemplos de inyecciones rápidas en varios idiomas (inglés, francés, alemán, español, italiano, portugués, rumano) en varios idiomas. Estos ejemplos ilustran técnicas para eludir y manipular los modelos lingüísticos, lo que permite comprender mejor y contrarrestar estos ataques.

¿Para qué sirve este conjunto de datos?

  • Mejorar la solidez de las LLM frente a las inyecciones maliciosas
  • Entrene modelos para detectar y neutralizar las inyecciones rápidas
  • Estudie los diferentes métodos para atacar los modelos lingüísticos

¿Se puede enriquecer o mejorar?

Sí, este corpus puede complementarse con ejemplos recientes o ejemplos específicos de ciertos contextos de uso. Una anotación adicional sobre la naturaleza de los ataques también puede mejorar su valor.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐⭐ (Simple, formato claro y solo texto)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Muy bajo – datos listos para usar)
🏷️ Riqueza de anotaciones⭐⭐✩✩✩ (Básico – ejemplos sin anotación compleja)
📜 Licencia comercial✅ Sí (Apache 2.0)
👨‍💻 Ideal para principiantes✅ Sí, accesible para investigadores y desarrolladores
🔁 Reutilizable para fine-tuning🛡️ Útil para fine-tuning en seguridad y control de modelos
🌍 Diversidad cultural⚡ Multilingüe – 7 idiomas representados

🧠 Recomendado para

  • Investigadores de seguridad de IA
  • Desarrolladores LLM
  • Analistas de PNL

🔧 Herramientas compatibles

  • Hugging Face
  • PyTorch
  • TensorFlow
  • Notebooks Jupyter

💡 Consejo

Trate estos datos con cuidado, evitando su uso malintencionado, para reforzar la seguridad de los sistemas.

Preguntas frecuentes

¿Qué técnicas de inyección abarca este conjunto de datos?

Filtración inmediata, jailbreak, modo de conmutación y otros métodos de elusión de LLM.

¿Este conjunto de datos solo está en inglés?

No, es multilingüe con 7 idiomas, incluidos francés, inglés, alemán, español, italiano, portugués y rumano.

¿Se puede usar este conjunto de datos para entrenar un modelo de negocio?

Sí, la licencia Apache 2.0 permite el uso comercial bajo condiciones.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.