AI-Generated Essays Dataset
Este conjunto de datos ofrece un corpus equilibrado de textos generados por humanos y por IA, con anotaciones binarias (0 = humano, 1 = IA). Está diseñado para entrenar detectores de texto sintético o para explorar las diferencias estilísticas entre la escritura humana y la automática.
1.460 pruebas en formato CSV (≈ 200 fichas cada una)
CC0: Dominio público
Descripción
El conjunto de datos Conjunto de datos de ensayos generado por IA contiene 1460 ensayos, una pequeña fracción (alrededor del 6%) de los cuales fueron generados por inteligencia artificial. Cada línea incluye el texto completo y una etiqueta que indica si fue escrita por un humano o una IA. Este corpus se utiliza como referencia para entrenar, probar y analizar modelos capaces de diferenciar el origen de un texto.
¿Para qué sirve este conjunto de datos?
- Entrene un modelo de detección de texto generado por IA (TF-IDF, transformadores, etc.)
- Analice las diferencias estilísticas entre el lenguaje humano y el generado.
- Cree herramientas educativas o desafíos de ciencia de datos en torno a la detección de texto sintético.
¿Se puede enriquecer o mejorar?
Sí El corpus se puede ampliar con textos más largos o en otros idiomas. También es posible añadir anotaciones lingüísticas (longitud media de las frases, complejidad léxica, etc.) o combinar métodos de aumento (traducción inversa, paráfrasis, etc.) para equilibrar mejor las clases.
🔎 En resumen
🧠 Recomendado para
- Entrenadores de PNL
- Estudiantes de ciencia de datos
- Proyectos de detección de IA ligera
🔧 Herramientas compatibles
- Scikit-learn
- SpacY
- BERT
- SHAP
- LIME
💡 Consejo
Para compensar el desequilibrio de clases, aplique el sobremuestreo o la ponderación dinámica de SMOTE en la función de pérdida.
Preguntas frecuentes
¿Este conjunto de datos es suficiente para entrenar un detector de IA fiable?
Es adecuado para experimentos de creación de prototipos o proyectos educativos, pero se requerirá un volumen mayor para la producción.
¿Se puede adaptar a otros idiomas?
Sí, es posible traducirlo o crear versiones multilingües generando pruebas de IA en el idioma deseado.
¿Se puede utilizar para el entrenamiento supervisado?
Por supuesto, cada ejemplo está anotado con una clase binaria (0 = humano, 1 = IA), lo que lo convierte en una base ideal para el aprendizaje supervisado.