Common Crawl

Common Crawl est l’une des plus vastes sources de texte brut accessible librement. Il s’agit d’une archive publique de milliards de pages web explorées et collectées régulièrement par des robots d’indexation. Ce corpus massif constitue une base de données incontournable pour l’entraînement de grands modèles de langage (LLMs).

Télécharger le dataset

Taille

Plusieurs téraoctets de données textuelles, au format WARC (Web ARChive)

Licence

Données ouvertes sous licence Common Crawl. Vérification requise pour les usages commerciaux selon les contenus

Description

‍
Le dataset Common Crawl comprend :

Plusieurs téraoctets de texte brut issu du web
Des formats WARC (Web ARChive), utilisés pour stocker les métadonnées, les contenus HTML, et les réponses HTTP complètes
Une couverture très large : actualités, blogs, forums, encyclopédies, boutiques en ligne, etc.
Des versions mensuelles mises à disposition depuis 2008

‍

À quoi sert ce dataset ?

‍
Common Crawl est utilisé pour :

L’entraînement de grands modèles de langage (GPT, Falcon, LLaMA, etc.)
L’étude des évolutions linguistiques, des biais et des représentations en ligne
L’amélioration des moteurs de recherche et des systèmes d’indexation automatique
La construction de corpus spécialisés à partir de filtres thématiques ou linguistiques appliqués sur les données

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, le dataset peut être adapté et filtré pour :

Nettoyer les doublons, les pages de faible qualité ou les contenus non textuels
Extraire des domaines spécifiques (médical, juridique, éducation, etc.)
Créer des versions multilingues ou focalisées sur certaines régions du monde
Annoter les textes pour des tâches de classification, résumé, extraction ou traduction automatique

‍

🔗 Source : Common Crawl Dataset

‍

Questions fréquemment posées

Common Crawl est-il directement exploitable tel quel ?

Non. En raison de son volume et de sa structure brute, il nécessite un traitement important : nettoyage, extraction du texte utile, filtrage par langue ou domaine, etc.

‍

Est-ce que Common Crawl contient des informations personnelles ?

Le corpus étant issu du web, il peut inclure accidentellement des informations personnelles. Il est donc essentiel d’appliquer des filtres de confidentialité avant toute utilisation sensible ou commerciale.

‍

Pourquoi Common Crawl est-il utilisé pour les LLMs ?

Sa taille, sa diversité thématique et son accessibilité en font une base idéale pour entraîner des modèles capables de généraliser sur des contextes variés et complexes.

Datasets similaires

Texte

Consumer Complaints Dataset

Texte

Text Anonymization Benchmark

Image

Ships in Satellite Imagery