Conjunto de datos Gutenberg
El conjunto de datos de Gutenberg es una colección de textos literarios de dominio público, puesta a disposición por el Proyecto Gutenberg. Es un recurso valioso para las aplicaciones de PNL que se centran en el lenguaje escrito, la literatura o los modelos de generación de textos.
Varias decenas de miles de libros, en formato TXT y EPUB
Dominio público, según los términos y condiciones del Proyecto Gutenberg. Se requiere verificación para las redistribuciones comerciales
Descripción
El conjunto de datos de Gutenberg incluye:
- Varias decenas de miles de libros (novelas, ensayos, teatro, poesía...)
- Formatos abiertos: TXT, EPUB, HTML
- Textos en inglés, pero también disponibles en otros idiomas
- Una estructura simple, compatible con las tuberías de PNL tradicionales
¿Para qué sirve este conjunto de datos?
Este corpus se usa ampliamente para:
- Modelos de generación o finalización de textos de formación
- Análisis lingüístico o estilístico de corpus de varios autores
- El desarrollo de modelos automáticos de clasificación resumida o literaria
- El estudio de la evolución del lenguaje escrito a lo largo del tiempo
¿Se puede enriquecer o mejorar?
Sí, aunque rico, el conjunto de datos de Gutenberg puede ser:
- Limpiado y segmentado en capítulos, párrafos o unidades de diálogo
- Anotado con metadatos: autor, género, fecha, estilo, período histórico
- Combinado con otros corpus para enfoques multilingües o comparativos
- Se utiliza para crear puntos de referencia sobre la generación de textos largos o la paráfrasis literaria
🔗 Fuente: Conjunto de datos Gutenberg
Preguntas frecuentes
¿El conjunto de datos solo contiene textos en inglés?
No, aunque la mayoría están en inglés, el Proyecto Gutenberg también ofrece libros en varios idiomas, incluidos el francés, el español, el alemán o el italiano.
¿Es adecuado para el entrenamiento de modelos grandes?
Sí, por su tamaño y calidad, es un buen complemento para otros modelos de corpus para LLM centrados en el lenguaje literario o la narración larga.
¿Cómo puedo filtrar o estructurar los textos del conjunto de datos?
Es posible utilizar los metadatos proporcionados (título, autor, idioma) o limpiar los guiones para extraer solo contenido literario e ignorar las notas, los prólogos o los avisos legales.