Gutenberg Dataset
Le dataset Gutenberg est une collection de textes littéraires issus du domaine public, mise à disposition par le Projet Gutenberg. Il constitue une ressource précieuse pour les applications NLP centrées sur la langue écrite, la littérature, ou les modèles de génération de texte.
Plusieurs dizaines de milliers de livres, format TXT et EPUB
Domaine public, selon les conditions du Projet Gutenberg. Vérification requise pour les redistributions commerciales
Description
Le dataset Gutenberg comprend :
- Plusieurs dizaines de milliers de livres (romans, essais, théâtre, poésie…)
- Des formats ouverts : TXT, EPUB, HTML
- Des textes en anglais, mais aussi disponibles dans d’autres langues
- Une structure simple, compatible avec les pipelines NLP classiques
À quoi sert ce dataset ?
Ce corpus est largement utilisé pour :
- L’entraînement de modèles de génération de texte ou de complétion
- L’analyse linguistique ou stylistique sur des corpus d’auteurs variés
- Le développement de modèles de résumé automatique ou de classification littéraire
- L’étude de l’évolution de la langue écrite à travers le temps
Peut-on l’enrichir ou l’améliorer ?
Oui, bien que riche, le dataset Gutenberg peut être :
- Nettoyé et segmenté en chapitres, paragraphes, ou unités de dialogue
- Annoté avec des métadonnées : auteur, genre, date, style, période historique
- Combiné avec d’autres corpus pour des approches multilingues ou comparatives
- Utilisé pour créer des benchmarks sur la génération de texte longue ou la paraphrase littéraire
🔗 Source : Gutenberg Dataset
Questions fréquemment posées
Le dataset contient-il uniquement des textes en anglais ?
Non, bien que majoritairement en anglais, le Projet Gutenberg propose également des livres dans plusieurs langues, dont le français, l’espagnol, l’allemand ou l’italien.
Est-il adapté à l’entraînement de grands modèles ?
Oui, par sa taille et sa qualité, c’est un bon complément à d’autres corpus pour les modèles LLM centrés sur la langue littéraire ou la narration longue.
Comment filtrer ou structurer les textes du dataset ?
Il est possible d’utiliser les métadonnées fournies (titre, auteur, langue) ou des scripts de nettoyage pour extraire uniquement le contenu littéraire et ignorer les notes, préfaces ou mentions légales.