FLORES+ : Benchmark de traduction multilingue
Benchmark multilingue de référence pour l’évaluation de la qualité de traduction dans plus de 200 langues, dérivé de sources variées comme Wikinews et Wikivoyage.
Environ 2000 phrases par langue × 222 langues, format texte structuré
CC-BY-SA 4.0
Description
FLORES+ est un benchmark multilingue utilisé pour tester la précision de la traduction automatique à travers 222 langues. Il contient des phrases issues de sources variées (Wikinews, Wikivoyage, Wikijunior), traduites de l’anglais vers une large gamme de langues. Le corpus est divisé en splits standardisés (dev, devtest), facilitant les comparaisons entre modèles.
À quoi sert ce dataset ?
- Évaluer les performances des modèles de traduction dans des langues à faible ou forte ressource
- Tester des systèmes multilingues dans un contexte contrôlé
- Explorer la couverture linguistique des LLM ou NMT
Peut-on l’enrichir ou l’améliorer ?
Oui. On peut ajouter de nouvelles paires de langues, compléter le jeu avec des traductions humaines supplémentaires ou enrichir les métadonnées par langue (famille linguistique, typologie). Il peut également servir de base à la création de benchmarks spécialisés par domaine (juridique, médical, etc.).
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en traduction
- Spécialistes des langues à faible ressource
- Développeurs de modèles multilingues
🔧 Outils compatibles
- MarianMT
- Fairseq
- Hugging Face Transformers
- BLEU/METEOR
💡 Astuce
Utilisez des métriques différenciées (BLEU, COMET, chrF) selon les langues pour une évaluation fine.
Questions fréquemment posées
Peut-on utiliser FLORES+ pour évaluer des modèles sur des langues rares ?
Oui, c’est l’un de ses principaux atouts : sa couverture comprend de nombreuses langues à faible ressource.
Le dataset contient-il des textes parallèles pour l’apprentissage ?
Non, il est conçu pour l’évaluation. Chaque phrase source est traduite vers plusieurs langues, mais ce n’est pas un corpus d’entraînement.
Ce benchmark est-il compatible avec des modèles de traduction fine-tunés ?
Absolument, il est fréquemment utilisé pour valider la qualité des modèles entraînés ou adaptés.