MAPS – Multilingual Agentic Performance & Security

MAPS es un punto de referencia único para probar el rendimiento y la seguridad de los agentes de IA en un contexto multilingüe, a través de diversas tareas de GAIA, MATH, SWE-Bench y ASB.

Obtén el dataset

Tamaño

96.800 tareas en formato JSON, distribuidas en 11 idiomas

Licencia

MIT

Descripción

‍

El dataset MAPS (rendimiento y seguridad de agencias multilingües) de Fujitsu es el primer punto de referencia multilingüe para evaluar el rendimiento y los comportamientos seguros de los agentes de IA en una amplia variedad de tareas. Incluye más de 8.800 tareas traducidas a 11 idiomas, que abarcan las áreas del razonamiento, la codificación, la investigación web y la seguridad ante escenarios adversos. El punto de referencia se basa en cuatro subconjuntos de datos: GAIA, MATH, SWE-Bench y ASB, cada uno de los cuales se centra en habilidades específicas.

‍

¿Para qué sirve este conjunto de datos?

‍

Comparación del rendimiento de diferentes agentes de IA en contextos multilingües
Pruebe la solidez y la seguridad de los agentes frente a entradas sensibles o adversas
Evalúe la generalización entre idiomas en el razonamiento, la codificación y la alineación

‍

¿Se puede enriquecer o mejorar?

‍

Sí. Se pueden agregar otros idiomas, tareas adicionales o escenarios personalizados. El formato JSON facilita la integración con otros puntos de referencia o herramientas. También se pueden incorporar métricas o evaluaciones específicas de ciertos campos (por ejemplo, derecho, finanzas).

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐☆ (Formato homogéneo, estructura clara)
🧼Necesidad de limpieza	⭐⭐⭐☆☆ (Baja – Datos verificados por anotadores bilingües)
🏷️Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Excelente – evaluación humana de la calidad de la traducción)
📜Licencia comercial	✅ Sí (MIT)
👨‍💻Ideal para principiantes	👩‍💻 Sí, con orientación en los benchmarks
🔁Reutilizable para fine-tuning	🚀 Más relevante para evaluación que para entrenamiento
🌍Diversidad cultural	🌍 Alta – 11 idiomas representados

‍

🧠 Recomendado para

Investigadores de IA multilingües
Desarrolladores de LLM Agent
Laboratorios de seguridad de IA

‍

🔧 Herramientas compatibles

Pitón
Júpiter
Conjuntos de datos de Hugging Face
Evaluaciones de OpenAI
Cadena LANG

‍

💡 Consejo

Filtre las tareas por idioma y dominio para identificar los puntos débiles específicos de los agentes.

Preguntas frecuentes

¿Se puede usar este punto de referencia para evaluar a los agentes que no hablan inglés?

Absolutamente. Fue diseñado para probar agentes en 11 idiomas, incluidos árabe, japonés, hindi, francés, etc.

¿Es adecuado para un ajuste fino?

El conjunto de datos es especialmente útil para la evaluación. Sin embargo, algunas tareas se pueden utilizar como soporte para un ajuste preciso controlado.

¿Es posible añadir sus propios escenarios al punto de referencia?

Sí, el formato JSON facilita la adición de escenarios o lenguajes personalizados. El punto de referencia se puede ampliar o modificar fácilmente de acuerdo con los objetivos de la prueba.

Otros datasets

Imagen

CeleBA

Vídeo

Deep Fake Detection DFD Entire Original Dataset

Texto

Common Crawl