AI-Generated Essays Dataset

Ce dataset propose un corpus équilibré de textes générés par l’homme et par l’IA, avec annotation binaire (0 = humain, 1 = IA). Il est conçu pour entraîner des détecteurs de texte synthétique ou explorer les différences stylistiques entre écriture humaine et automatique.

Télécharger le dataset

Taille

1460 essais au format CSV (≈ 200 tokens chacun)

Licence

CC0: Public Domain

Description

‍

Le dataset AI-Generated Essays Dataset contient 1 460 essais, dont une petite fraction (environ 6 %) a été générée par une intelligence artificielle. Chaque ligne comprend le texte complet et une étiquette indiquant s’il a été rédigé par un humain ou une IA. Ce corpus sert de référence pour entraîner, tester et analyser des modèles capables de différencier la provenance d’un texte.

‍

À quoi sert ce dataset ?

‍

Entraîner un modèle de détection de texte généré par IA (TF-IDF, transformers, etc.).
Analyser les différences stylistiques entre langage humain et généré.
Créer des outils pédagogiques ou des défis en data science autour de la détection de texte synthétique.

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Oui. On peut étendre le corpus avec des textes plus longs ou dans d’autres langues. Il est aussi possible d’ajouter des annotations linguistiques (longueur moyenne de phrase, complexité lexicale, etc.) ou d’y combiner des méthodes d’augmentation (back translation, paraphrase, etc.) pour mieux équilibrer les classes.

‍

🔎 En résumé

Critère	Évaluation
🧩Facilité d’utilisation	⭐⭐⭐⭐☆ (très simple, CSV prêt à l’emploi)
🧼Besoin de nettoyage	⭐⭐⭐☆☆ (données déjà propres)
🏷️Richesse des annotations	⭐☆☆☆☆ (limité à une étiquette binaire)
📜Licence commerciale	✅ Oui (CC0)
👨‍💻Idéal pour les débutants	👶 Parfait pour démarrer sur la détection de texte IA
🔁Réutilisable en fine-tuning	⚠️ Faible volume → utile en phase d’amorçage ou test
🌍Diversité culturelle	🌍 Faible – textes probablement en anglais, pas de contexte géographique