AI-Generated Essays Dataset

Este conjunto de datos ofrece un corpus equilibrado de textos generados por humanos y por IA, con anotaciones binarias (0 = humano, 1 = IA). Está diseñado para entrenar detectores de texto sintético o para explorar las diferencias estilísticas entre la escritura humana y la automática.

Obtén el dataset

Tamaño

1.460 pruebas en formato CSV (≈ 200 fichas cada una)

Licencia

CC0: Dominio público

Descripción

‍

El conjunto de datos Conjunto de datos de ensayos generado por IA contiene 1460 ensayos, una pequeña fracción (alrededor del 6%) de los cuales fueron generados por inteligencia artificial. Cada línea incluye el texto completo y una etiqueta que indica si fue escrita por un humano o una IA. Este corpus se utiliza como referencia para entrenar, probar y analizar modelos capaces de diferenciar el origen de un texto.

‍

¿Para qué sirve este conjunto de datos?

‍

Entrene un modelo de detección de texto generado por IA (TF-IDF, transformadores, etc.)
Analice las diferencias estilísticas entre el lenguaje humano y el generado.
Cree herramientas educativas o desafíos de ciencia de datos en torno a la detección de texto sintético.

‍

¿Se puede enriquecer o mejorar?

‍

Sí El corpus se puede ampliar con textos más largos o en otros idiomas. También es posible añadir anotaciones lingüísticas (longitud media de las frases, complejidad léxica, etc.) o combinar métodos de aumento (traducción inversa, paráfrasis, etc.) para equilibrar mejor las clases.

‍

🔎 En resumen

Criterio	Evaluación
🧩Facilidad de uso	⭐⭐⭐⭐☆ (muy simple, CSV listo para usar)
🧼Limpieza necesaria	⭐⭐⭐☆☆ (datos ya limpios)
🏷️Riqueza de anotaciones	⭐☆☆☆☆ (limitado a una etiqueta binaria)
📜Licencia comercial	✅ Sí (CC0)
👨‍💻Ideal para principiantes	👶 Perfecto para empezar con detección de texto AI
🔁Reutilizable para fine-tuning	⚠️ Bajo volumen → útil para pruebas o fase inicial
🌍Diversidad cultural	🌍 Baja – textos probablemente en inglés, sin contexto geográfico

‍

🧠 Recomendado para

Entrenadores de PNL
Estudiantes de ciencia de datos
Proyectos de detección de IA ligera

‍

🔧 Herramientas compatibles

Scikit-learn
SpacY
BERT
SHAP
LIME

‍

💡 Consejo

Para compensar el desequilibrio de clases, aplique el sobremuestreo o la ponderación dinámica de SMOTE en la función de pérdida.

Preguntas frecuentes

¿Este conjunto de datos es suficiente para entrenar un detector de IA fiable?

Es adecuado para experimentos de creación de prototipos o proyectos educativos, pero se requerirá un volumen mayor para la producción.

¿Se puede adaptar a otros idiomas?

Sí, es posible traducirlo o crear versiones multilingües generando pruebas de IA en el idioma deseado.

¿Se puede utilizar para el entrenamiento supervisado?

Por supuesto, cada ejemplo está anotado con una clase binaria (0 = humano, 1 = IA), lo que lo convierte en una base ideal para el aprendizaje supervisado.

Otros datasets

ReactJS FAQ Dataset

VisualWebInstruct

MidJourney Detailed Prompts