FLORES+: referencia de traducción multilingüe
Un punto de referencia multilingüe para evaluar la calidad de las traducciones en más de 200 idiomas, derivado de una variedad de fuentes como Wikinoticias y Wikivoyage.
Aproximadamente 2.000 frases por idioma × 222 idiomas, formato de texto estructurado
CC-BY-SA 4.0
Description
FLORES+ es un punto de referencia multilingüe que se utiliza para comparar la precisión de la traducción automática en 222 idiomas. Contiene frases de varias fuentes (Wikinoticias, Wikivoyage, Wikijunior), traducidas del inglés a una amplia gama de idiomas. El corpus está dividido en divisiones estandarizadas (dev, devtest), lo que facilita las comparaciones entre modelos.
¿Para qué sirve este conjunto de datos?
- Evaluar el desarrollo de modelos de traducción en lenguajes básicos y de otros recursos
- Probar sistemas multilingües en un contexto controlado
- Explore la cobertura lingüística de LLM o NMT
¿Puedes enriquecer o mejorar?
Sí. Puedes añadir nuevas combinaciones de idiomas, completar el juego con traducciones humanas adicionales o enriquecer los metadatos por idioma (familia lingüística, tipología). También se puede usar como base para crear puntos de referencia especializados por campo (legal, médico, etc.).
🔎 En resumen
🧠 Recomendado para
- Investigadores de Traducción
- Especialistas en idiomas de bajos recursos
- Desarrolladores de modelos multilingües
🔧 Herramientas compatibles
- Marian
- Mar Justo
- Cara Abrazándose de los Transformers
- AZUL/METEORO
💡 Consejo
Utilice métricas diferenciadas (BLEU, COMET, ChRF) según los idiomas para una evaluación detallada.
Preguntas frecuentes
¿Se puede usar FLORES+ para evaluar modelos en idiomas raros?
Sí, es una de sus principales actividades: su cobertura incluye varios idiomas y recursos.
¿El conjunto de datos contiene textos paralelos para el aprendizaje?
No, está diseñado para la evaluación. Cada discurso original se traduce a varios idiomas, pero no es un corpus formativo.
¿Este punto de referencia es compatible con los modelos de traducción ajustados?
Además, utilizamos la frecuencia para validar la calidad de los modelos entrenados o adaptados.