En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Common Crawl
Texte

Common Crawl

Common Crawl est l’une des plus vastes sources de texte brut accessible librement. Il s’agit d’une archive publique de milliards de pages web explorées et collectées régulièrement par des robots d’indexation. Ce corpus massif constitue une base de données incontournable pour l’entraînement de grands modèles de langage (LLMs).

Télécharger le dataset
Taille

Plusieurs téraoctets de données textuelles, au format WARC (Web ARChive)

Licence

Données ouvertes sous licence Common Crawl. Vérification requise pour les usages commerciaux selon les contenus

Description


Le dataset Common Crawl comprend :

  • Plusieurs téraoctets de texte brut issu du web
  • Des formats WARC (Web ARChive), utilisés pour stocker les métadonnées, les contenus HTML, et les réponses HTTP complètes
  • Une couverture très large : actualités, blogs, forums, encyclopédies, boutiques en ligne, etc.
  • Des versions mensuelles mises à disposition depuis 2008

À quoi sert ce dataset ?


Common Crawl est utilisé pour :

  • L’entraînement de grands modèles de langage (GPT, Falcon, LLaMA, etc.)
  • L’étude des évolutions linguistiques, des biais et des représentations en ligne
  • L’amélioration des moteurs de recherche et des systèmes d’indexation automatique
  • La construction de corpus spécialisés à partir de filtres thématiques ou linguistiques appliqués sur les données

Peut-on l’enrichir ou l’améliorer ?


Oui, le dataset peut être adapté et filtré pour :

  • Nettoyer les doublons, les pages de faible qualité ou les contenus non textuels
  • Extraire des domaines spécifiques (médical, juridique, éducation, etc.)
  • Créer des versions multilingues ou focalisées sur certaines régions du monde
  • Annoter les textes pour des tâches de classification, résumé, extraction ou traduction automatique

🔗 Source : Common Crawl Dataset

Questions fréquemment posées

Common Crawl est-il directement exploitable tel quel ?

Non. En raison de son volume et de sa structure brute, il nécessite un traitement important : nettoyage, extraction du texte utile, filtrage par langue ou domaine, etc.

Est-ce que Common Crawl contient des informations personnelles ?

Le corpus étant issu du web, il peut inclure accidentellement des informations personnelles. Il est donc essentiel d’appliquer des filtres de confidentialité avant toute utilisation sensible ou commerciale.

Pourquoi Common Crawl est-il utilisé pour les LLMs ?

Sa taille, sa diversité thématique et son accessibilité en font une base idéale pour entraîner des modèles capables de généraliser sur des contextes variés et complexes.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.