FineWeb-edu
Un corpus masivo filtrado por su calidad educativa, de CommonCrawl, destinado a capacitar a los estudiantes de LLM en tareas orientadas al aprendizaje y la comprensión.
1,3 millones de fichas en Parquet, versión filtrada de CommonCrawl, disponible en streaming
Doc-by 1.0
Descripción
FineWeb-edu es una versión filtrada del conjunto de datos web de FineWeb, seleccionada de acuerdo con una puntuación de utilidad educativa establecida por un clasificador basado en Llama3-70B. Incluye 1,3 millones de fichas de páginas web educativas, estructurados en archivos Parquet, y está destinado a capacitar a los modelos de LLM en contenido informativo y educativo.
¿Para qué sirve este conjunto de datos?
- Capacite los modelos de LLM en contenido educativo confiable y específico
- Mejore el rendimiento en puntos de referencia como MMLU, ARC y OpenBookQA
- Crear asistentes de aprendizaje o asistentes para responder preguntas complejas
¿Se puede enriquecer o mejorar?
Sí, FineWeb-edu puede combinarse con otras fuentes estructuradas (por ejemplo, Wikipedia, StackExchange) o especializarse en disciplinas (matemáticas, física, etc.). También se pueden producir versiones que se dedupliquen o se filtren según los niveles de grado específicos.
🔎 En resumen
🧠 Recomendado para
- Desarrolladores de LLM educativos
- Investigadores de PNL
- Instituciones educativas de código abierto
🔧 Herramientas compatibles
- Datatrove
- Hugging Face Datasets
- PyTorch
- Streaming Parquet
💡 Consejo
Para tareas específicas, usa las versiones de muestra (10B, 100B, 350B) para acelerar tus iteraciones de entrenamiento.
Preguntas frecuentes
¿FineWeb-edu solo contiene contenido académico?
No, contiene cualquier tipo de contenido que el clasificador considere «educativo» (por ejemplo, guías prácticas, cursos, explicaciones enciclopédicas, etc.).
¿Cuál es la diferencia entre FineWeb y FineWeb-edu?
FineWeb-edu es una versión filtrada de FineWeb que contiene solo las páginas que han obtenido una puntuación alta en calidad educativa, evaluada por Llama3.
¿Se puede usar FineWeb-EDU para entrenar un modelo multilingüe?
El contenido está principalmente en inglés, pero es posible que se incluyan algunas páginas multilingües. Se recomienda completarlo con conjuntos de datos multilingües.