Common Crawl

Common Crawl es una de las mayores fuentes de texto plano que está disponible gratuitamente. Es un archivo público de miles de millones de páginas web exploradas y recopiladas regularmente por robots de indexación. Este enorme corpus constituye una base de datos esencial para la formación de grandes modelos lingüísticos (LLM).

Obtén el dataset

Tamaño

Varios terabytes de datos de texto, en formato WARC (Web Archive)

Licencia

Datos abiertos con licencia de Common Crawl. Se requiere una verificación para usos comerciales basados en el contenido

Descripción

‍
El conjunto de datos Common Crawl incluye:

Varios terabytes de texto plano de la web
Formatos WARC (Web Archive), utilizados para almacenar metadatos, contenido HTML y respuestas HTTP completas
Cobertura muy amplia: noticias, blogs, foros, enciclopedias, tiendas online, etc.
Versiones mensuales disponibles desde 2008

‍

¿Para qué sirve este conjunto de datos?

‍
Common Crawl se usa para:

Entrenamiento de modelos lingüísticos de gran tamaño (GPT, Falcon, LLama, etc.)
El estudio de las evoluciones lingüísticas, los sesgos y las representaciones en línea
Mejora de los motores de búsqueda y los sistemas de indexación automática
La construcción de corpus especializados a partir de filtros temáticos o lingüísticos aplicados a los datos

‍

¿Se puede enriquecer o mejorar?

‍
Sí, el conjunto de datos se puede adaptar y filtrar para:

Elimine los duplicados, las páginas de baja calidad o el contenido que no sea texto
Extraiga áreas específicas (médica, legal, educativa, etc.)
Cree versiones multilingües o versiones centradas en determinadas regiones del mundo
Anota textos para tareas de clasificación, resumen, extracción o traducción automática

‍

🔗 Fuente: Conjunto de datos de rastreo común

‍

Preguntas frecuentes

¿Se puede usar Common Crawl directamente tal como está?

No Por su volumen y su estructura en bruto, requiere un procesamiento importante: limpieza, extracción de texto útil, filtrado por idioma o dominio, etc.

‍

¿Common Crawl contiene información personal?

Dado que el corpus proviene de la web, puede incluir accidentalmente información personal. Por lo tanto, es esencial aplicar filtros de privacidad antes de cualquier uso confidencial o comercial.

‍

¿Por qué se usa Common Crawl para los LLM?

Su tamaño, diversidad temática y accesibilidad lo convierten en una base ideal para modelos de formación capaces de generalizarse a contextos variados y complejos.

Otros datasets

Imagen

Military Aircraft Detection

Imagen

DiffusionDB PixelArt

Texto

AI-Generated Essays Dataset