En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
APT-Eval – Détection de textes retravaillés par IA
Texte

APT-Eval – Détection de textes retravaillés par IA

Corpus textuel permettant d’évaluer la capacité des détecteurs d’IA à repérer des textes humains légèrement modifiés par différents LLMs.

Télécharger le dataset
Taille

Environ 15 000 textes, CSV/JSON, classés par polisseur, degré et type de retouche

Licence

MIT

Description

APT-Eval est un benchmark inédit destiné à l’analyse des comportements des détecteurs de texte IA face à des textes humains retravaillés. Il regroupe 15 000 échantillons de texte issus de six domaines (blog, actualités, discours, etc.), modifiés par cinq grands modèles de langage (LLM), selon deux approches : basée sur le degré et basée sur le pourcentage de modification. L’objectif est de simuler un cas réaliste d’utilisation légère des IA dans la rédaction humaine.

À quoi sert ce dataset ?

  • Évaluer la robustesse des détecteurs de texte IA face aux modifications minimales par LLMs
  • Comparer l’impact de différents modèles (GPT-4o, Llama, DeepSeek) selon plusieurs stratégies de polishing
  • Développer de nouveaux outils de détection ou classifier les textes hybrides

Peut-on l’enrichir ou l’améliorer ?

Oui, il est possible d’y ajouter d’autres langues, d’autres genres textuels (comme la poésie ou les posts sociaux), ou de croiser les résultats avec des évaluations humaines. Une extension multilingue serait aussi pertinente pour renforcer les analyses de généralisation des détecteurs.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐⭐ (Élevée : bien structuré et étiqueté)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Aucun nettoyage nécessaire)
🏷️ Richesse des annotations⭐⭐⭐⭐⭐ (Très détaillé : score sémantique, distances textuelles, polisseur, etc.)
📜 Licence commerciale✅ Oui (MIT)
👨‍💻 Idéal pour les débutants🌟 Oui – facile à charger, clair et utile en NLP
🔁 Réutilisable en fine-tuning⚡ Oui, notamment pour détecteurs IA, tâches de classification
🌍 Diversité culturelle⚠️ Moyenne : principalement en anglais, genres variés

🧠 Recommandé pour

  • Chercheurs en détection IA
  • Projets d’authenticité textuelle
  • NLP éthique

🔧 Outils compatibles

  • Scikit-learn
  • Hugging Face Datasets
  • Pytorch
  • SpaCy
  • LLM-detectors

💡 Astuce

Utilisez les scores de similarité pour entraîner des modèles de détection adaptative à seuil variable.

Questions fréquemment posées

Ce dataset inclut-il les textes originaux avant retouche ?

Oui, les textes humains initiaux sont disponibles dans une version parallèle du dataset pour comparaison directe.

Quelle est la différence entre les deux types de "polishing" ?

Le mode "degree-based" applique un niveau de modification défini (mineur, majeur...), tandis que "percentage-based" utilise un pourcentage précis du texte original.

Peut-on détecter avec précision les textes modifiés par GPT-4o dans ce corpus ?

Justement, ce dataset montre que même les détecteurs performants échouent face à des modifications subtiles, en particulier celles de GPT-4o.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.