MAPS – Multilingual Agentic Performance & Security

MAPS est un benchmark unique pour tester la performance et la sécurité d’agents IA en contexte multilingue, à travers des tâches variées issues de GAIA, MATH, SWE-bench et ASB.

Télécharger le dataset

Taille

96 800 tâches au format JSON, réparties sur 11 langues

Licence

MIT

Description

‍

MAPS (Multilingual Agentic Performance & Security), un dataset de Fujitsu, est le premier benchmark multilingue pour évaluer les performances et les comportements sécurisés d'agents IA à travers une grande diversité de tâches. Il regroupe plus de 8 800 tâches traduites en 11 langues, couvrant les domaines du raisonnement, du codage, de la recherche web, et de la sécurité face à des scénarios adverses. Le benchmark s’appuie sur quatre sous-datasets : GAIA, MATH, SWE-bench et ASB, chacun ciblant des compétences spécifiques.

‍

À quoi sert ce dataset ?

‍

Comparer les performances de différents agents IA dans des contextes multilingues
Tester la robustesse et la sécurité d’agents face à des entrées sensibles ou adverses
Évaluer la généralisation cross-lingue en raisonnement, codage et alignement

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. Il est possible d'ajouter d'autres langues, tâches supplémentaires ou scénarios personnalisés. Le format JSON facilite l’intégration avec d’autres benchmarks ou outils. Des métriques ou évaluations spécifiques à certains domaines (ex. droit, finance) peuvent également être incorporées.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐☆ (Format homogène, structuration claire)
🧼Besoin de nettoyage	⭐⭐⭐☆☆ (Faible – Données vérifiées par annotateurs bilingues)
🏷️Richesse des annotations	⭐⭐⭐⭐⭐ (Excellente – évaluation humaine de la qualité de traduction)
📜Licence commerciale	✅ Oui (MIT)
👨‍💻Idéal pour les débutants	👩‍💻 Oui, avec encadrement sur les benchmarks
🔁Réutilisable en fine-tuning	🚀 Pertinent pour l'évaluation plus que l'entraînement
🌍Diversité culturelle	🌍 Forte – 11 langues représentées

‍

🧠 Recommandé pour

Chercheurs en IA multilingue
Développeurs d’agents LLM
Laboratoires de sécurité IA

‍

🔧 Outils compatibles

Python
Jupyter
Hugging Face Datasets
OpenAI Evals
LangChain

‍

💡 Astuce

Filtrez les tâches par langue et domaine pour identifier les points faibles spécifiques des agents.

Questions fréquemment posées

Ce benchmark peut-il être utilisé pour évaluer des agents non anglophones ?

Absolument. Il a été conçu pour tester des agents en 11 langues, y compris l’arabe, le japonais, l’hindi, le français, etc.

Est-il adapté pour du fine-tuning ?

Le dataset est surtout utile pour l’évaluation. Toutefois, certaines tâches peuvent servir de support pour du fine-tuning contrôlé.

Est-il possible d’ajouter ses propres scénarios dans le benchmark ?

Oui, le format JSON facilite l’ajout de scénarios ou langues personnalisés. Le benchmark peut être facilement étendu ou modifié selon les objectifs de test.

Datasets similaires

Texte

Agentic Long Context Understanding QA

Texte

MMLU

Image

LSUN Bedrooms