Cosmopedia: Corpus Sintético Masivo
Cosmopedia es un enorme corpus de textos sintéticos generados por el modelo Mixtral-8x7B-INSTRUCT-v0.1. Incluye millones de artículos educativos, tutoriales, historias o entradas de blog inspiradas en fuentes como Stanford, wikiHow o RedPajama.
30 millones de documentos, 25 mil millones de fichas, formato JSON/Parquet
Apache 2.0
Descripción
Cosmopedia es uno de los conjuntos de datos sintéticos de código abierto más grandes. Incluye más de 30 millones de documentos, generados automáticamente por la plantilla Mixtral-8x7B-Instruct-V0.1, según las indicaciones de fuentes educativas (KhanAcademy, Stanford, wikiHow, etc.) o de la web. El objetivo es recrear un mapa textual global a través de contenido diverso y estructurado.
¿Para qué sirve este conjunto de datos?
- Ajuste masivo de los LLM sobre contenido coherente y multitemático
- Preentrene los modelos de compilación, control de calidad o resumen
- Probar la solidez de los modelos frente a variaciones sintéticas similares al lenguaje natural
¿Se puede enriquecer o mejorar?
Sí. Es posible añadir una capa de clasificación por tema, filtrar determinadas fuentes o utilizar Cosmopedia como base para los sistemas de enseñanza automatizados. La anotación humana parcial también podría mejorar la calidad en ciertos segmentos.
🔎 En resumen
🧠 Recomendado para
- LLM antes del entrenamiento
- Proyectos educativos
- I+D en IA generativa
🔧 Herramientas compatibles
- PyTorch
- Conjuntos de datos de Hugging Face
- Velocidad profunda
- LoRa
- Axolotl
💡 Consejo
Usa el mapa interactivo de Nomic para filtrar los temas antes de incorporarlos por completo a una canalización.
Preguntas frecuentes
¿El contenido es fiable para uso educativo?
Se trata de datos sintéticos que no han sido verificados por humanos, por lo que deben usarse con cuidado para usos críticos.
¿Solo puedo extraer artículos de wikiHow?
Sí, el conjunto de datos se divide en divisiones según las fuentes utilizadas para las solicitudes. Puede filtrar en consecuencia.
¿Se puede entrenar un LLM utilizando solo este conjunto de datos?
Sí, el volumen y la diversidad hacen que Cosmopedia sea adecuada para la formación previa o el ajuste masivo de un modelo lingüístico.