Gutenberg Dataset

Le dataset Gutenberg est une collection de textes littéraires issus du domaine public, mise à disposition par le Projet Gutenberg. Il constitue une ressource précieuse pour les applications NLP centrées sur la langue écrite, la littérature, ou les modèles de génération de texte.

Télécharger le dataset

Taille

Plusieurs dizaines de milliers de livres, format TXT et EPUB

Licence

Domaine public, selon les conditions du Projet Gutenberg. Vérification requise pour les redistributions commerciales

Description

‍
Le dataset Gutenberg comprend :

Plusieurs dizaines de milliers de livres (romans, essais, théâtre, poésie…)
Des formats ouverts : TXT, EPUB, HTML
Des textes en anglais, mais aussi disponibles dans d’autres langues
Une structure simple, compatible avec les pipelines NLP classiques

‍

À quoi sert ce dataset ?

‍
Ce corpus est largement utilisé pour :

L’entraînement de modèles de génération de texte ou de complétion
L’analyse linguistique ou stylistique sur des corpus d’auteurs variés
Le développement de modèles de résumé automatique ou de classification littéraire
L’étude de l’évolution de la langue écrite à travers le temps

‍

Peut-on l’enrichir ou l’améliorer ?

‍
Oui, bien que riche, le dataset Gutenberg peut être :

Nettoyé et segmenté en chapitres, paragraphes, ou unités de dialogue
Annoté avec des métadonnées : auteur, genre, date, style, période historique
Combiné avec d’autres corpus pour des approches multilingues ou comparatives
Utilisé pour créer des benchmarks sur la génération de texte longue ou la paraphrase littéraire

‍

🔗 Source : Gutenberg Dataset

‍

Questions fréquemment posées

Le dataset contient-il uniquement des textes en anglais ?

Non, bien que majoritairement en anglais, le Projet Gutenberg propose également des livres dans plusieurs langues, dont le français, l’espagnol, l’allemand ou l’italien.

Est-il adapté à l’entraînement de grands modèles ?

Oui, par sa taille et sa qualité, c’est un bon complément à d’autres corpus pour les modèles LLM centrés sur la langue littéraire ou la narration longue.

Comment filtrer ou structurer les textes du dataset ?

Il est possible d’utiliser les métadonnées fournies (titre, auteur, langue) ou des scripts de nettoyage pour extraire uniquement le contenu littéraire et ignorer les notes, préfaces ou mentions légales.

Datasets similaires

LibriSpeech

AudioSet

DeepFashion (Large Scale Fashion)