MAPS – Multilingual Agentic Performance & Security
MAPS est un benchmark unique pour tester la performance et la sécurité d’agents IA en contexte multilingue, à travers des tâches variées issues de GAIA, MATH, SWE-bench et ASB.
Description
MAPS (Multilingual Agentic Performance & Security), un dataset de Fujitsu, est le premier benchmark multilingue pour évaluer les performances et les comportements sécurisés d'agents IA à travers une grande diversité de tâches. Il regroupe plus de 8 800 tâches traduites en 11 langues, couvrant les domaines du raisonnement, du codage, de la recherche web, et de la sécurité face à des scénarios adverses. Le benchmark s’appuie sur quatre sous-datasets : GAIA, MATH, SWE-bench et ASB, chacun ciblant des compétences spécifiques.
À quoi sert ce dataset ?
- Comparer les performances de différents agents IA dans des contextes multilingues
- Tester la robustesse et la sécurité d’agents face à des entrées sensibles ou adverses
- Évaluer la généralisation cross-lingue en raisonnement, codage et alignement
Peut-on l’enrichir ou l’améliorer ?
Oui. Il est possible d'ajouter d'autres langues, tâches supplémentaires ou scénarios personnalisés. Le format JSON facilite l’intégration avec d’autres benchmarks ou outils. Des métriques ou évaluations spécifiques à certains domaines (ex. droit, finance) peuvent également être incorporées.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en IA multilingue
- Développeurs d’agents LLM
- Laboratoires de sécurité IA
🔧 Outils compatibles
- Python
- Jupyter
- Hugging Face Datasets
- OpenAI Evals
- LangChain
💡 Astuce
Filtrez les tâches par langue et domaine pour identifier les points faibles spécifiques des agents.
Questions fréquemment posées
Ce benchmark peut-il être utilisé pour évaluer des agents non anglophones ?
Absolument. Il a été conçu pour tester des agents en 11 langues, y compris l’arabe, le japonais, l’hindi, le français, etc.
Est-il adapté pour du fine-tuning ?
Le dataset est surtout utile pour l’évaluation. Toutefois, certaines tâches peuvent servir de support pour du fine-tuning contrôlé.
Est-il possible d’ajouter ses propres scénarios dans le benchmark ?
Oui, le format JSON facilite l’ajout de scénarios ou langues personnalisés. Le benchmark peut être facilement étendu ou modifié selon les objectifs de test.