Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
FineWeb-edu
Texto

FineWeb-edu

Un corpus masivo filtrado por su calidad educativa, de CommonCrawl, destinado a capacitar a los estudiantes de LLM en tareas orientadas al aprendizaje y la comprensión.

Obtén el dataset
Tamaño

1,3 millones de fichas en Parquet, versión filtrada de CommonCrawl, disponible en streaming

Licencia

Doc-by 1.0

Descripción

FineWeb-edu es una versión filtrada del conjunto de datos web de FineWeb, seleccionada de acuerdo con una puntuación de utilidad educativa establecida por un clasificador basado en Llama3-70B. Incluye 1,3 millones de fichas de páginas web educativas, estructurados en archivos Parquet, y está destinado a capacitar a los modelos de LLM en contenido informativo y educativo.

¿Para qué sirve este conjunto de datos?

  • Capacite los modelos de LLM en contenido educativo confiable y específico
  • Mejore el rendimiento en puntos de referencia como MMLU, ARC y OpenBookQA
  • Crear asistentes de aprendizaje o asistentes para responder preguntas complejas

¿Se puede enriquecer o mejorar?

Sí, FineWeb-edu puede combinarse con otras fuentes estructuradas (por ejemplo, Wikipedia, StackExchange) o especializarse en disciplinas (matemáticas, física, etc.). También se pueden producir versiones que se dedupliquen o se filtren según los niveles de grado específicos.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐☆ (Streaming vía Parquet, uso optimizado con datatrove)
🧼Necesidad de limpieza ⭐⭐⭐⭐☆ (Baja – prefiltrado para calidad educativa, ya limpiado)
🏷️Riqueza de anotaciones ⭐⭐☆☆☆ (No anotado manualmente pero clasificado por modelo LLM)
📜Licencia comercial ✅ Sí (ODC-By 1.0)
👨‍💻Ideal para principiantes ⚠️ No – voluminoso, requiere herramientas adecuadas (streaming, LFS, datatrove)
🔁Reutilizable en fine-tuning 🔥 Perfecto para preentrenamiento y fine-tuning educativo
🌍Diversidad cultural 🌐 Fuertemente dependiente del contenido web global, sesgos moderados

🧠 Recomendado para

  • Desarrolladores de LLM educativos
  • Investigadores de PNL
  • Instituciones educativas de código abierto

🔧 Herramientas compatibles

  • Datatrove
  • Hugging Face Datasets
  • PyTorch
  • Streaming Parquet

💡 Consejo

Para tareas específicas, usa las versiones de muestra (10B, 100B, 350B) para acelerar tus iteraciones de entrenamiento.

Preguntas frecuentes

¿FineWeb-edu solo contiene contenido académico?

No, contiene cualquier tipo de contenido que el clasificador considere «educativo» (por ejemplo, guías prácticas, cursos, explicaciones enciclopédicas, etc.).

¿Cuál es la diferencia entre FineWeb y FineWeb-edu?

FineWeb-edu es una versión filtrada de FineWeb que contiene solo las páginas que han obtenido una puntuación alta en calidad educativa, evaluada por Llama3.

¿Se puede usar FineWeb-EDU para entrenar un modelo multilingüe?

El contenido está principalmente en inglés, pero es posible que se incluyan algunas páginas multilingües. Se recomienda completarlo con conjuntos de datos multilingües.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.