Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Human vs LLM Text Corpus: detección de texto generado
Texto

Human vs LLM Text Corpus: detección de texto generado

Corpus comparativo entre textos humanos y textos generados por modelos LLM, útil para la detección automatizada de contenido o el análisis estilístico.

Obtén el dataset
Tamaño

Aproximadamente 790,000 entradas de texto, formato CSV

Licencia

MIT

Descripción

El conjunto de datos Human vs LLM Text Corpus contiene más de 788,000 ejemplos de texto, divididos entre contenido escrito por humanos y contenido generado automáticamente por varios modelos lingüísticos (LLM). Es un recurso de referencia para la detección, clasificación o investigación de textos generados por IA en lingüística computacional.

¿Para qué sirve este conjunto de datos?

  • Entrene modelos para que detecten automáticamente textos de IA en comparación con textos humanos
  • Analice las diferencias estilísticas o estructurales entre las dos fuentes
  • Evalúe la solidez de los detectores de generación automática en diferentes contextos

¿Se puede enriquecer o mejorar?

Sí, son posibles mejoras, como la adición de metadatos (modelo generativo utilizado, longitud, tema) o el equilibrio de los corpus según los tipos de contenido. También se puede segmentar por dominio (científico, creativo, narrativo...) para refinar los modelos de detección.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐⭐✩ (Datos listos para usar)
🧼 Necesidad de limpieza⭐⭐⭐⭐⭐ (Bajo – datos ya estructurados y bien separados)
🏷️ Riqueza de anotaciones⭐⭐⭐✩✩ (Moderado – distinción IA/humano, pero poco contexto)
📜 Licencia comercial✅ Sí (MIT)
👨‍💻 Ideal para principiantes🌟 Muy bueno para iniciar en NLP de clasificación
🔁 Reutilizable para fine-tuning🎯 Sí, ideal para fine-tuning binario o contrastivo
🌍 Diversidad cultural⚠️ Variable – depende de las fuentes, a validar previamente

🧠 Recomendado para

  • Investigadores de detección de IA de generación
  • Proyectos académicos en PNL
  • Herramientas de moderación automática

🔧 Herramientas compatibles

  • Scikit-learn
  • Transformers Huggging Face
  • IA abierta
  • Espacio Y

💡 Consejo

Combine este conjunto de datos con textos web públicos para mejorar la generalización de un modelo de detección de IA.

Preguntas frecuentes

¿El conjunto de datos está equilibrado entre el contenido humano y el contenido generado?

Sí, los textos generalmente están bien distribuidos entre humanos y LLM, lo que los hace adecuados para tareas de clasificación binaria.

¿Se especifican los modelos utilizados para generar los textos?

No siempre, algunos textos especifican su origen (ChatGPT, etc.), pero la información puede estar incompleta según el caso.

¿Se puede usar tal cual para un ajuste fino supervisado?

Sí, está listo para usarse para entrenar modelos supervisados, especialmente para tareas de detección o clasificación.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.