APT-Eval – Détection de textes retravaillés par IA

Corpus textuel permettant d’évaluer la capacité des détecteurs d’IA à repérer des textes humains légèrement modifiés par différents LLMs.

Télécharger le dataset

Taille

Environ 15 000 textes, CSV/JSON, classés par polisseur, degré et type de retouche

Licence

MIT

Description

‍

APT-Eval est un benchmark inédit destiné à l’analyse des comportements des détecteurs de texte IA face à des textes humains retravaillés. Il regroupe 15 000 échantillons de texte issus de six domaines (blog, actualités, discours, etc.), modifiés par cinq grands modèles de langage (LLM), selon deux approches : basée sur le degré et basée sur le pourcentage de modification. L’objectif est de simuler un cas réaliste d’utilisation légère des IA dans la rédaction humaine.

‍

À quoi sert ce dataset ?

‍

Évaluer la robustesse des détecteurs de texte IA face aux modifications minimales par LLMs
Comparer l’impact de différents modèles (GPT-4o, Llama, DeepSeek) selon plusieurs stratégies de polishing
Développer de nouveaux outils de détection ou classifier les textes hybrides

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui, il est possible d’y ajouter d’autres langues, d’autres genres textuels (comme la poésie ou les posts sociaux), ou de croiser les résultats avec des évaluations humaines. Une extension multilingue serait aussi pertinente pour renforcer les analyses de généralisation des détecteurs.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐⭐⭐ (Élevée : bien structuré et étiqueté)
🧼 Besoin de nettoyage	⭐⭐⭐⭐⭐ (Aucun nettoyage nécessaire)
🏷️ Richesse des annotations	⭐⭐⭐⭐⭐ (Très détaillé : score sémantique, distances textuelles, polisseur, etc.)
📜 Licence commerciale	✅ Oui (MIT)
👨‍💻 Idéal pour les débutants	🌟 Oui – facile à charger, clair et utile en NLP
🔁 Réutilisable en fine-tuning	⚡ Oui, notamment pour détecteurs IA, tâches de classification
🌍 Diversité culturelle	⚠️ Moyenne : principalement en anglais, genres variés

‍

🧠 Recommandé pour

Chercheurs en détection IA
Projets d’authenticité textuelle
NLP éthique

‍

🔧 Outils compatibles

Scikit-learn
Hugging Face Datasets
Pytorch
SpaCy
LLM-detectors

‍

💡 Astuce

Utilisez les scores de similarité pour entraîner des modèles de détection adaptative à seuil variable.

Questions fréquemment posées

Ce dataset inclut-il les textes originaux avant retouche ?

Oui, les textes humains initiaux sont disponibles dans une version parallèle du dataset pour comparaison directe.

Quelle est la différence entre les deux types de "polishing" ?

Le mode "degree-based" applique un niveau de modification défini (mineur, majeur...), tandis que "percentage-based" utilise un pourcentage précis du texte original.

Peut-on détecter avec précision les textes modifiés par GPT-4o dans ce corpus ?

Justement, ce dataset montre que même les détecteurs performants échouent face à des modifications subtiles, en particulier celles de GPT-4o.

Datasets similaires

Texte

Cosmopedia : Corpus Synthétique Massif

Multimodal

VLMS Are Blind

Image

Fashionpedia Dataset