Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
MAPS – Multilingual Agentic Performance & Security
Texto

MAPS – Multilingual Agentic Performance & Security

MAPS es un punto de referencia único para probar el rendimiento y la seguridad de los agentes de IA en un contexto multilingüe, a través de diversas tareas de GAIA, MATH, SWE-Bench y ASB.

Obtén el dataset
Tamaño

96.800 tareas en formato JSON, distribuidas en 11 idiomas

Licencia

MIT

Descripción

El dataset MAPS (rendimiento y seguridad de agencias multilingües) de Fujitsu es el primer punto de referencia multilingüe para evaluar el rendimiento y los comportamientos seguros de los agentes de IA en una amplia variedad de tareas. Incluye más de 8.800 tareas traducidas a 11 idiomas, que abarcan las áreas del razonamiento, la codificación, la investigación web y la seguridad ante escenarios adversos. El punto de referencia se basa en cuatro subconjuntos de datos: GAIA, MATH, SWE-Bench y ASB, cada uno de los cuales se centra en habilidades específicas.

¿Para qué sirve este conjunto de datos?

  • Comparación del rendimiento de diferentes agentes de IA en contextos multilingües
  • Pruebe la solidez y la seguridad de los agentes frente a entradas sensibles o adversas
  • Evalúe la generalización entre idiomas en el razonamiento, la codificación y la alineación

¿Se puede enriquecer o mejorar?

Sí. Se pueden agregar otros idiomas, tareas adicionales o escenarios personalizados. El formato JSON facilita la integración con otros puntos de referencia o herramientas. También se pueden incorporar métricas o evaluaciones específicas de ciertos campos (por ejemplo, derecho, finanzas).

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐☆ (Formato homogéneo, estructura clara)
🧼Necesidad de limpieza ⭐⭐⭐☆☆ (Baja – Datos verificados por anotadores bilingües)
🏷️Riqueza de anotaciones ⭐⭐⭐⭐⭐ (Excelente – evaluación humana de la calidad de la traducción)
📜Licencia comercial ✅ Sí (MIT)
👨‍💻Ideal para principiantes 👩‍💻 Sí, con orientación en los benchmarks
🔁Reutilizable para fine-tuning 🚀 Más relevante para evaluación que para entrenamiento
🌍Diversidad cultural 🌍 Alta – 11 idiomas representados

🧠 Recomendado para

  • Investigadores de IA multilingües
  • Desarrolladores de LLM Agent
  • Laboratorios de seguridad de IA

🔧 Herramientas compatibles

  • Pitón
  • Júpiter
  • Conjuntos de datos de Hugging Face
  • Evaluaciones de OpenAI
  • Cadena LANG

💡 Consejo

Filtre las tareas por idioma y dominio para identificar los puntos débiles específicos de los agentes.

Preguntas frecuentes

¿Se puede usar este punto de referencia para evaluar a los agentes que no hablan inglés?

Absolutamente. Fue diseñado para probar agentes en 11 idiomas, incluidos árabe, japonés, hindi, francés, etc.

¿Es adecuado para un ajuste fino?

El conjunto de datos es especialmente útil para la evaluación. Sin embargo, algunas tareas se pueden utilizar como soporte para un ajuste preciso controlado.

¿Es posible añadir sus propios escenarios al punto de referencia?

Sí, el formato JSON facilita la adición de escenarios o lenguajes personalizados. El punto de referencia se puede ampliar o modificar fácilmente de acuerdo con los objetivos de la prueba.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.