Conjunto de datos Gutenberg

El conjunto de datos de Gutenberg es una colección de textos literarios de dominio público, puesta a disposición por el Proyecto Gutenberg. Es un recurso valioso para las aplicaciones de PNL que se centran en el lenguaje escrito, la literatura o los modelos de generación de textos.

Obtén el dataset

Tamaño

Varias decenas de miles de libros, en formato TXT y EPUB

Licencia

Dominio público, según los términos y condiciones del Proyecto Gutenberg. Se requiere verificación para las redistribuciones comerciales

Descripción

‍
El conjunto de datos de Gutenberg incluye:

Varias decenas de miles de libros (novelas, ensayos, teatro, poesía...)
Formatos abiertos: TXT, EPUB, HTML
Textos en inglés, pero también disponibles en otros idiomas
Una estructura simple, compatible con las tuberías de PNL tradicionales

‍

¿Para qué sirve este conjunto de datos?

‍
Este corpus se usa ampliamente para:

Modelos de generación o finalización de textos de formación
Análisis lingüístico o estilístico de corpus de varios autores
El desarrollo de modelos automáticos de clasificación resumida o literaria
El estudio de la evolución del lenguaje escrito a lo largo del tiempo

‍

¿Se puede enriquecer o mejorar?

‍
Sí, aunque rico, el conjunto de datos de Gutenberg puede ser:

Limpiado y segmentado en capítulos, párrafos o unidades de diálogo
Anotado con metadatos: autor, género, fecha, estilo, período histórico
Combinado con otros corpus para enfoques multilingües o comparativos
Se utiliza para crear puntos de referencia sobre la generación de textos largos o la paráfrasis literaria

‍

🔗 Fuente: Conjunto de datos Gutenberg

‍

Preguntas frecuentes

¿El conjunto de datos solo contiene textos en inglés?

No, aunque la mayoría están en inglés, el Proyecto Gutenberg también ofrece libros en varios idiomas, incluidos el francés, el español, el alemán o el italiano.

¿Es adecuado para el entrenamiento de modelos grandes?

Sí, por su tamaño y calidad, es un buen complemento para otros modelos de corpus para LLM centrados en el lenguaje literario o la narración larga.

¿Cómo puedo filtrar o estructurar los textos del conjunto de datos?

Es posible utilizar los metadatos proporcionados (título, autor, idioma) o limpiar los guiones para extraer solo contenido literario e ignorar las notas, los prólogos o los avisos legales.

Otros datasets

Texto

FLORES+: referencia de traducción multilingüe

Imagen

Cat Dataset

Texto

MidJourney Detailed Prompts