MAPS – Multilingual Agentic Performance & Security
MAPS es un punto de referencia único para probar el rendimiento y la seguridad de los agentes de IA en un contexto multilingüe, a través de diversas tareas de GAIA, MATH, SWE-Bench y ASB.
Descripción
El dataset MAPS (rendimiento y seguridad de agencias multilingües) de Fujitsu es el primer punto de referencia multilingüe para evaluar el rendimiento y los comportamientos seguros de los agentes de IA en una amplia variedad de tareas. Incluye más de 8.800 tareas traducidas a 11 idiomas, que abarcan las áreas del razonamiento, la codificación, la investigación web y la seguridad ante escenarios adversos. El punto de referencia se basa en cuatro subconjuntos de datos: GAIA, MATH, SWE-Bench y ASB, cada uno de los cuales se centra en habilidades específicas.
¿Para qué sirve este conjunto de datos?
- Comparación del rendimiento de diferentes agentes de IA en contextos multilingües
- Pruebe la solidez y la seguridad de los agentes frente a entradas sensibles o adversas
- Evalúe la generalización entre idiomas en el razonamiento, la codificación y la alineación
¿Se puede enriquecer o mejorar?
Sí. Se pueden agregar otros idiomas, tareas adicionales o escenarios personalizados. El formato JSON facilita la integración con otros puntos de referencia o herramientas. También se pueden incorporar métricas o evaluaciones específicas de ciertos campos (por ejemplo, derecho, finanzas).
🔎 En resumen
🧠 Recomendado para
- Investigadores de IA multilingües
- Desarrolladores de LLM Agent
- Laboratorios de seguridad de IA
🔧 Herramientas compatibles
- Pitón
- Júpiter
- Conjuntos de datos de Hugging Face
- Evaluaciones de OpenAI
- Cadena LANG
💡 Consejo
Filtre las tareas por idioma y dominio para identificar los puntos débiles específicos de los agentes.
Preguntas frecuentes
¿Se puede usar este punto de referencia para evaluar a los agentes que no hablan inglés?
Absolutamente. Fue diseñado para probar agentes en 11 idiomas, incluidos árabe, japonés, hindi, francés, etc.
¿Es adecuado para un ajuste fino?
El conjunto de datos es especialmente útil para la evaluación. Sin embargo, algunas tareas se pueden utilizar como soporte para un ajuste preciso controlado.
¿Es posible añadir sus propios escenarios al punto de referencia?
Sí, el formato JSON facilita la adición de escenarios o lenguajes personalizados. El punto de referencia se puede ampliar o modificar fácilmente de acuerdo con los objetivos de la prueba.