Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Common Crawl
Texto

Common Crawl

Common Crawl es una de las mayores fuentes de texto plano que está disponible gratuitamente. Es un archivo público de miles de millones de páginas web exploradas y recopiladas regularmente por robots de indexación. Este enorme corpus constituye una base de datos esencial para la formación de grandes modelos lingüísticos (LLM).

Obtén el dataset
Tamaño

Varios terabytes de datos de texto, en formato WARC (Web Archive)

Licencia

Datos abiertos con licencia de Common Crawl. Se requiere una verificación para usos comerciales basados en el contenido

Descripción


El conjunto de datos Common Crawl incluye:

  • Varios terabytes de texto plano de la web
  • Formatos WARC (Web Archive), utilizados para almacenar metadatos, contenido HTML y respuestas HTTP completas
  • Cobertura muy amplia: noticias, blogs, foros, enciclopedias, tiendas online, etc.
  • Versiones mensuales disponibles desde 2008

¿Para qué sirve este conjunto de datos?


Common Crawl se usa para:

  • Entrenamiento de modelos lingüísticos de gran tamaño (GPT, Falcon, LLama, etc.)
  • El estudio de las evoluciones lingüísticas, los sesgos y las representaciones en línea
  • Mejora de los motores de búsqueda y los sistemas de indexación automática
  • La construcción de corpus especializados a partir de filtros temáticos o lingüísticos aplicados a los datos

¿Se puede enriquecer o mejorar?


Sí, el conjunto de datos se puede adaptar y filtrar para:

  • Elimine los duplicados, las páginas de baja calidad o el contenido que no sea texto
  • Extraiga áreas específicas (médica, legal, educativa, etc.)
  • Cree versiones multilingües o versiones centradas en determinadas regiones del mundo
  • Anota textos para tareas de clasificación, resumen, extracción o traducción automática

🔗 Fuente: Conjunto de datos de rastreo común

Preguntas frecuentes

¿Se puede usar Common Crawl directamente tal como está?

No Por su volumen y su estructura en bruto, requiere un procesamiento importante: limpieza, extracción de texto útil, filtrado por idioma o dominio, etc.

¿Common Crawl contiene información personal?

Dado que el corpus proviene de la web, puede incluir accidentalmente información personal. Por lo tanto, es esencial aplicar filtros de privacidad antes de cualquier uso confidencial o comercial.

¿Por qué se usa Common Crawl para los LLM?

Su tamaño, diversidad temática y accesibilidad lo convierten en una base ideal para modelos de formación capaces de generalizarse a contextos variados y complejos.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.