Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
AI-Generated Essays Dataset
Texto

AI-Generated Essays Dataset

Este conjunto de datos ofrece un corpus equilibrado de textos generados por humanos y por IA, con anotaciones binarias (0 = humano, 1 = IA). Está diseñado para entrenar detectores de texto sintético o para explorar las diferencias estilísticas entre la escritura humana y la automática.

Obtén el dataset
Tamaño

1.460 pruebas en formato CSV (≈ 200 fichas cada una)

Licencia

CC0: Dominio público

Descripción

El conjunto de datos Conjunto de datos de ensayos generado por IA contiene 1460 ensayos, una pequeña fracción (alrededor del 6%) de los cuales fueron generados por inteligencia artificial. Cada línea incluye el texto completo y una etiqueta que indica si fue escrita por un humano o una IA. Este corpus se utiliza como referencia para entrenar, probar y analizar modelos capaces de diferenciar el origen de un texto.

¿Para qué sirve este conjunto de datos?

  • Entrene un modelo de detección de texto generado por IA (TF-IDF, transformadores, etc.)
  • Analice las diferencias estilísticas entre el lenguaje humano y el generado.
  • Cree herramientas educativas o desafíos de ciencia de datos en torno a la detección de texto sintético.

¿Se puede enriquecer o mejorar?

Sí El corpus se puede ampliar con textos más largos o en otros idiomas. También es posible añadir anotaciones lingüísticas (longitud media de las frases, complejidad léxica, etc.) o combinar métodos de aumento (traducción inversa, paráfrasis, etc.) para equilibrar mejor las clases.

🔎 En resumen

Criterio Evaluación
🧩Facilidad de uso ⭐⭐⭐⭐☆ (muy simple, CSV listo para usar)
🧼Limpieza necesaria ⭐⭐⭐☆☆ (datos ya limpios)
🏷️Riqueza de anotaciones ⭐☆☆☆☆ (limitado a una etiqueta binaria)
📜Licencia comercial ✅ Sí (CC0)
👨‍💻Ideal para principiantes 👶 Perfecto para empezar con detección de texto AI
🔁Reutilizable para fine-tuning ⚠️ Bajo volumen → útil para pruebas o fase inicial
🌍Diversidad cultural 🌍 Baja – textos probablemente en inglés, sin contexto geográfico

🧠 Recomendado para

  • Entrenadores de PNL
  • Estudiantes de ciencia de datos
  • Proyectos de detección de IA ligera

🔧 Herramientas compatibles

  • Scikit-learn
  • SpacY
  • BERT
  • SHAP
  • LIME

💡 Consejo

Para compensar el desequilibrio de clases, aplique el sobremuestreo o la ponderación dinámica de SMOTE en la función de pérdida.

Preguntas frecuentes

¿Este conjunto de datos es suficiente para entrenar un detector de IA fiable?

Es adecuado para experimentos de creación de prototipos o proyectos educativos, pero se requerirá un volumen mayor para la producción.

¿Se puede adaptar a otros idiomas?

Sí, es posible traducirlo o crear versiones multilingües generando pruebas de IA en el idioma deseado.

¿Se puede utilizar para el entrenamiento supervisado?

Por supuesto, cada ejemplo está anotado con una clase binaria (0 = humano, 1 = IA), lo que lo convierte en una base ideal para el aprendizaje supervisado.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.