En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Gutenberg Dataset
Texte

Gutenberg Dataset

Le dataset Gutenberg est une collection de textes littéraires issus du domaine public, mise à disposition par le Projet Gutenberg. Il constitue une ressource précieuse pour les applications NLP centrées sur la langue écrite, la littérature, ou les modèles de génération de texte.

Télécharger le dataset
Taille

Plusieurs dizaines de milliers de livres, format TXT et EPUB

Licence

Domaine public, selon les conditions du Projet Gutenberg. Vérification requise pour les redistributions commerciales

Description


Le dataset Gutenberg comprend :

  • Plusieurs dizaines de milliers de livres (romans, essais, théâtre, poésie…)
  • Des formats ouverts : TXT, EPUB, HTML
  • Des textes en anglais, mais aussi disponibles dans d’autres langues
  • Une structure simple, compatible avec les pipelines NLP classiques

À quoi sert ce dataset ?


Ce corpus est largement utilisé pour :

  • L’entraînement de modèles de génération de texte ou de complétion
  • L’analyse linguistique ou stylistique sur des corpus d’auteurs variés
  • Le développement de modèles de résumé automatique ou de classification littéraire
  • L’étude de l’évolution de la langue écrite à travers le temps

Peut-on l’enrichir ou l’améliorer ?


Oui, bien que riche, le dataset Gutenberg peut être :

  • Nettoyé et segmenté en chapitres, paragraphes, ou unités de dialogue
  • Annoté avec des métadonnées : auteur, genre, date, style, période historique
  • Combiné avec d’autres corpus pour des approches multilingues ou comparatives
  • Utilisé pour créer des benchmarks sur la génération de texte longue ou la paraphrase littéraire

🔗 Source : Gutenberg Dataset

Questions fréquemment posées

Le dataset contient-il uniquement des textes en anglais ?

Non, bien que majoritairement en anglais, le Projet Gutenberg propose également des livres dans plusieurs langues, dont le français, l’espagnol, l’allemand ou l’italien.

Est-il adapté à l’entraînement de grands modèles ?

Oui, par sa taille et sa qualité, c’est un bon complément à d’autres corpus pour les modèles LLM centrés sur la langue littéraire ou la narration longue.

Comment filtrer ou structurer les textes du dataset ?

Il est possible d’utiliser les métadonnées fournies (titre, auteur, langue) ou des scripts de nettoyage pour extraire uniquement le contenu littéraire et ignorer les notes, préfaces ou mentions légales.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.