En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
MAPS – Multilingual Agentic Performance & Security
Texte

MAPS – Multilingual Agentic Performance & Security

MAPS est un benchmark unique pour tester la performance et la sécurité d’agents IA en contexte multilingue, à travers des tâches variées issues de GAIA, MATH, SWE-bench et ASB.

Télécharger le dataset
Taille

96 800 tâches au format JSON, réparties sur 11 langues

Licence

MIT

Description

MAPS (Multilingual Agentic Performance & Security), un dataset de Fujitsu, est le premier benchmark multilingue pour évaluer les performances et les comportements sécurisés d'agents IA à travers une grande diversité de tâches. Il regroupe plus de 8 800 tâches traduites en 11 langues, couvrant les domaines du raisonnement, du codage, de la recherche web, et de la sécurité face à des scénarios adverses. Le benchmark s’appuie sur quatre sous-datasets : GAIA, MATH, SWE-bench et ASB, chacun ciblant des compétences spécifiques.

À quoi sert ce dataset ?

  • Comparer les performances de différents agents IA dans des contextes multilingues
  • Tester la robustesse et la sécurité d’agents face à des entrées sensibles ou adverses
  • Évaluer la généralisation cross-lingue en raisonnement, codage et alignement

Peut-on l’enrichir ou l’améliorer ?

Oui. Il est possible d'ajouter d'autres langues, tâches supplémentaires ou scénarios personnalisés. Le format JSON facilite l’intégration avec d’autres benchmarks ou outils. Des métriques ou évaluations spécifiques à certains domaines (ex. droit, finance) peuvent également être incorporées.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐☆ (Format homogène, structuration claire)
🧼Besoin de nettoyage ⭐⭐⭐☆☆ (Faible – Données vérifiées par annotateurs bilingues)
🏷️Richesse des annotations ⭐⭐⭐⭐⭐ (Excellente – évaluation humaine de la qualité de traduction)
📜Licence commerciale ✅ Oui (MIT)
👨‍💻Idéal pour les débutants 👩‍💻 Oui, avec encadrement sur les benchmarks
🔁Réutilisable en fine-tuning 🚀 Pertinent pour l'évaluation plus que l'entraînement
🌍Diversité culturelle 🌍 Forte – 11 langues représentées

🧠 Recommandé pour

  • Chercheurs en IA multilingue
  • Développeurs d’agents LLM
  • Laboratoires de sécurité IA

🔧 Outils compatibles

  • Python
  • Jupyter
  • Hugging Face Datasets
  • OpenAI Evals
  • LangChain

💡 Astuce

Filtrez les tâches par langue et domaine pour identifier les points faibles spécifiques des agents.

Questions fréquemment posées

Ce benchmark peut-il être utilisé pour évaluer des agents non anglophones ?

Absolument. Il a été conçu pour tester des agents en 11 langues, y compris l’arabe, le japonais, l’hindi, le français, etc.

Est-il adapté pour du fine-tuning ?

Le dataset est surtout utile pour l’évaluation. Toutefois, certaines tâches peuvent servir de support pour du fine-tuning contrôlé.

Est-il possible d’ajouter ses propres scénarios dans le benchmark ?

Oui, le format JSON facilite l’ajout de scénarios ou langues personnalisés. Le benchmark peut être facilement étendu ou modifié selon les objectifs de test.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.