Common Crawl
Common Crawl est l’une des plus vastes sources de texte brut accessible librement. Il s’agit d’une archive publique de milliards de pages web explorées et collectées régulièrement par des robots d’indexation. Ce corpus massif constitue une base de données incontournable pour l’entraînement de grands modèles de langage (LLMs).
Plusieurs téraoctets de données textuelles, au format WARC (Web ARChive)
Données ouvertes sous licence Common Crawl. Vérification requise pour les usages commerciaux selon les contenus
Description
Le dataset Common Crawl comprend :
- Plusieurs téraoctets de texte brut issu du web
- Des formats WARC (Web ARChive), utilisés pour stocker les métadonnées, les contenus HTML, et les réponses HTTP complètes
- Une couverture très large : actualités, blogs, forums, encyclopédies, boutiques en ligne, etc.
- Des versions mensuelles mises à disposition depuis 2008
À quoi sert ce dataset ?
Common Crawl est utilisé pour :
- L’entraînement de grands modèles de langage (GPT, Falcon, LLaMA, etc.)
- L’étude des évolutions linguistiques, des biais et des représentations en ligne
- L’amélioration des moteurs de recherche et des systèmes d’indexation automatique
- La construction de corpus spécialisés à partir de filtres thématiques ou linguistiques appliqués sur les données
Peut-on l’enrichir ou l’améliorer ?
Oui, le dataset peut être adapté et filtré pour :
- Nettoyer les doublons, les pages de faible qualité ou les contenus non textuels
- Extraire des domaines spécifiques (médical, juridique, éducation, etc.)
- Créer des versions multilingues ou focalisées sur certaines régions du monde
- Annoter les textes pour des tâches de classification, résumé, extraction ou traduction automatique
🔗 Source : Common Crawl Dataset
Questions fréquemment posées
Common Crawl est-il directement exploitable tel quel ?
Non. En raison de son volume et de sa structure brute, il nécessite un traitement important : nettoyage, extraction du texte utile, filtrage par langue ou domaine, etc.
Est-ce que Common Crawl contient des informations personnelles ?
Le corpus étant issu du web, il peut inclure accidentellement des informations personnelles. Il est donc essentiel d’appliquer des filtres de confidentialité avant toute utilisation sensible ou commerciale.
Pourquoi Common Crawl est-il utilisé pour les LLMs ?
Sa taille, sa diversité thématique et son accessibilité en font une base idéale pour entraîner des modèles capables de généraliser sur des contextes variés et complexes.