Apt-Eval: detección de textos reelaborados por IA

Corpus de textos para evaluar la capacidad de los detectores de IA para identificar textos humanos que han sido modificados significativamente por diferentes LLM.

Obtén el dataset

Tamaño

Aproximadamente 15.000 textos, CSV/JSON, clasificados por potencia, grado y tipo de edición

Licencia

MIT

Description

‍

Evaluación apta es un nuevo punto de referencia diseñado para analizar el comportamiento de los detectores de texto con inteligencia artificial cuando interfieren con textos humanos rediseñados. Incluye 15 000 mensajes de texto de seis áreas (blog, noticias, discursos, etc.), modificados según los cinco modelos lingüísticos principales (LLM), utilizando dos temas: según la calificación y según el porcentaje de modificación. El objetivo es simular un caso realista de uso ligero de la IA en la escritura humana.

‍

¿Para qué sirve este conjunto de datos?

‍

Evalúe la solidez de los detectores de texto con IA ante los cambios mínimos de los LLM
Compare el impacto de diferentes modelos (GPT-4o, Llama, DeepSeek) según las diferentes políticas de lluvia
Desarrolle nuevas herramientas de detección o clasifique textos híbridos

‍

¿Puedes enriquecer o mejorar?

‍

Sí, es posible añadir otros idiomas, otros géneros textuales (como poesía o publicaciones sociales) o comparar los resultados con las evaluaciones humanas. Una extensión multilingüe también será relevante para mejorar los análisis de generalización de los detectores.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐⭐⭐ (Alto: bien estructurado y etiquetado)
🧼 Necesidad de limpieza	⭐⭐⭐⭐⭐ (Ninguna limpieza necesaria)
🏷️ Riqueza de anotaciones	⭐⭐⭐⭐⭐ (Muy detallado: puntuación semántica, distancias textuales, polisher, etc.)
📜 Licencia comercial	✅ Sí (MIT)
👨‍💻 Ideal para principiantes	🌟 Sí – fácil de cargar, claro y útil en NLP
🔁 Reutilizable para fine-tuning	⚡ Sí, especialmente para detectores de IA y tareas de clasificación
🌍 Diversidad cultural	⚠️ Moderado: principalmente en inglés, géneros variados

‍

🧠 Recomendado para

Investigadores de detección de IA
Proyectos de autenticidad textual
PNL Ethics

‍

🔧 Herramientas compatibles

Scikit-learn
Conjuntos de datos de Hugging Face
Pytorch
Espacio Y
Detectores LLM

‍

💡 Asesoramiento

Utilice puntos de similitud para entrenar modelos de detección adaptativos con umbrales variables.

Preguntas frecuentes

¿Este conjunto de datos incluye los textos originales antes de editarlos?

Sí, los textos humanos originales están disponibles en una versión paralela del conjunto de datos para una comparación directa.

¿Cuál es la diferencia entre los dos tipos de «lluvioso»?

El modo «basado en calificaciones» aplica un nivel de modificación definido (menor, mayor...), pero el modo «basado en porcentajes» usa un porcentaje específico del texto original.

¿Podemos detectar con precisión los textos modificados por GPT-4o en este corpus?

Precisamente, este conjunto de datos muestra que incluyen los posibles detectores que requieren modificaciones útiles, en particular los del GPT-4o.

Otros datasets

Vídeo

Shoplifting Video Dataset

Texto

MidJourney v5 Prompt Dataset

Imagen

Reddit Memes Dataset