Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
FLORES+: referencia de traducción multilingüe
Texto

FLORES+: referencia de traducción multilingüe

Un punto de referencia multilingüe para evaluar la calidad de las traducciones en más de 200 idiomas, derivado de una variedad de fuentes como Wikinoticias y Wikivoyage.

Obtén el dataset
Tamaño

Aproximadamente 2.000 frases por idioma × 222 idiomas, formato de texto estructurado

Licencia

CC-BY-SA 4.0

Description

FLORES+ es un punto de referencia multilingüe que se utiliza para comparar la precisión de la traducción automática en 222 idiomas. Contiene frases de varias fuentes (Wikinoticias, Wikivoyage, Wikijunior), traducidas del inglés a una amplia gama de idiomas. El corpus está dividido en divisiones estandarizadas (dev, devtest), lo que facilita las comparaciones entre modelos.

¿Para qué sirve este conjunto de datos?

  • Evaluar el desarrollo de modelos de traducción en lenguajes básicos y de otros recursos
  • Probar sistemas multilingües en un contexto controlado
  • Explore la cobertura lingüística de LLM o NMT

¿Puedes enriquecer o mejorar?

Sí. Puedes añadir nuevas combinaciones de idiomas, completar el juego con traducciones humanas adicionales o enriquecer los metadatos por idioma (familia lingüística, tipología). También se puede usar como base para crear puntos de referencia especializados por campo (legal, médico, etc.).

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐⭐ (Estructura simple, bien documentada)
🧼Necesidad de limpieza ⭐⭐⭐⭐⭐ (Ninguna – datos listos para usar)
🏷️Riqueza de anotaciones ⭐⭐⭐⭐☆ (Multilingüe, bien segmentado)
📜Licencia comercial ✅ Sí (CC-BY-SA 4.0)
👨‍💻Ideal para principiantes 👩‍🎓 Sí, fácil de manejar
🔁Reutilizable para fine-tuning 🔥 Perfecto para adaptar o evaluar modelos NMT
🌍Diversidad cultural 🌐 Muy alta – 222 idiomas cubiertos

🧠 Recomendado para

  • Investigadores de Traducción
  • Especialistas en idiomas de bajos recursos
  • Desarrolladores de modelos multilingües

🔧 Herramientas compatibles

  • Marian
  • Mar Justo
  • Cara Abrazándose de los Transformers
  • AZUL/METEORO

💡 Consejo

Utilice métricas diferenciadas (BLEU, COMET, ChRF) según los idiomas para una evaluación detallada.

Preguntas frecuentes

¿Se puede usar FLORES+ para evaluar modelos en idiomas raros?

Sí, es una de sus principales actividades: su cobertura incluye varios idiomas y recursos.

¿El conjunto de datos contiene textos paralelos para el aprendizaje?

No, está diseñado para la evaluación. Cada discurso original se traduce a varios idiomas, pero no es un corpus formativo.

¿Este punto de referencia es compatible con los modelos de traducción ajustados?

Además, utilizamos la frecuencia para validar la calidad de los modelos entrenados o adaptados.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.