Human vs LLM Text Corpus: detección de texto generado

Corpus comparativo entre textos humanos y textos generados por modelos LLM, útil para la detección automatizada de contenido o el análisis estilístico.

Obtén el dataset

Tamaño

Aproximadamente 790,000 entradas de texto, formato CSV

Licencia

MIT

Descripción

‍

El conjunto de datos Human vs LLM Text Corpus contiene más de 788,000 ejemplos de texto, divididos entre contenido escrito por humanos y contenido generado automáticamente por varios modelos lingüísticos (LLM). Es un recurso de referencia para la detección, clasificación o investigación de textos generados por IA en lingüística computacional.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene modelos para que detecten automáticamente textos de IA en comparación con textos humanos
Analice las diferencias estilísticas o estructurales entre las dos fuentes
Evalúe la solidez de los detectores de generación automática en diferentes contextos

‍

¿Se puede enriquecer o mejorar?

‍

Sí, son posibles mejoras, como la adición de metadatos (modelo generativo utilizado, longitud, tema) o el equilibrio de los corpus según los tipos de contenido. También se puede segmentar por dominio (científico, creativo, narrativo...) para refinar los modelos de detección.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐✩ (Datos listos para usar)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Bajo – datos ya estructurados y bien separados)
🏷️ Riqueza de anotaciones	⭐⭐⭐✩✩ (Moderado – distinción IA/humano, pero poco contexto)
📜 Licencia comercial	✅ Sí (MIT)
👨‍💻 Ideal para principiantes	🌟 Muy bueno para iniciar en NLP de clasificación
🔁 Reutilizable para fine-tuning	🎯 Sí, ideal para fine-tuning binario o contrastivo
🌍 Diversidad cultural	⚠️ Variable – depende de las fuentes, a validar previamente

‍

🧠 Recomendado para

Investigadores de detección de IA de generación
Proyectos académicos en PNL
Herramientas de moderación automática

‍

🔧 Herramientas compatibles

Scikit-learn
Transformers Huggging Face
IA abierta
Espacio Y

‍

💡 Consejo

Combine este conjunto de datos con textos web públicos para mejorar la generalización de un modelo de detección de IA.

Preguntas frecuentes

¿El conjunto de datos está equilibrado entre el contenido humano y el contenido generado?

Sí, los textos generalmente están bien distribuidos entre humanos y LLM, lo que los hace adecuados para tareas de clasificación binaria.

¿Se especifican los modelos utilizados para generar los textos?

No siempre, algunos textos especifican su origen (ChatGPT, etc.), pero la información puede estar incompleta según el caso.

¿Se puede usar tal cual para un ajuste fino supervisado?

Sí, está listo para usarse para entrenar modelos supervisados, especialmente para tareas de detección o clasificación.

Otros datasets

Texto

Conjuntos de datos financieros de Kaggle

Audio

Synthetic Speech Commands

Texto

Apt-Eval: detección de textos reelaborados por IA