AI-Generated Essays Dataset
Ce dataset propose un corpus équilibré de textes générés par l’homme et par l’IA, avec annotation binaire (0 = humain, 1 = IA). Il est conçu pour entraîner des détecteurs de texte synthétique ou explorer les différences stylistiques entre écriture humaine et automatique.
1460 essais au format CSV (≈ 200 tokens chacun)
CC0: Public Domain
Description
Le dataset AI-Generated Essays Dataset contient 1 460 essais, dont une petite fraction (environ 6 %) a été générée par une intelligence artificielle. Chaque ligne comprend le texte complet et une étiquette indiquant s’il a été rédigé par un humain ou une IA. Ce corpus sert de référence pour entraîner, tester et analyser des modèles capables de différencier la provenance d’un texte.
À quoi sert ce dataset ?
- Entraîner un modèle de détection de texte généré par IA (TF-IDF, transformers, etc.).
- Analyser les différences stylistiques entre langage humain et généré.
- Créer des outils pédagogiques ou des défis en data science autour de la détection de texte synthétique.
Peut-on l’enrichir ou l’améliorer ?
Oui. On peut étendre le corpus avec des textes plus longs ou dans d’autres langues. Il est aussi possible d’ajouter des annotations linguistiques (longueur moyenne de phrase, complexité lexicale, etc.) ou d’y combiner des méthodes d’augmentation (back translation, paraphrase, etc.) pour mieux équilibrer les classes.
🔎 En résumé
🧠 Recommandé pour
- Formateurs NLP
- Étudiants en data science
- Projets de détection IA légère
🔧 Outils compatibles
- Scikit-learn
- SpaCy
- BERT
- SHAP
- LIME
💡 Astuce
Pour compenser l’imbalance des classes, appliquez un oversampling SMOTE ou une pondération dynamique dans la fonction de perte.
Questions fréquemment posées
Ce dataset est-il suffisant pour entraîner un détecteur IA fiable ?
Il est adapté à des expériences de prototypage ou à des projets pédagogiques, mais un volume plus grand sera nécessaire pour la production.
Peut-on l’adapter à d’autres langues ?
Oui, il est possible de le traduire ou de créer des versions multilingues en générant des essais IA dans la langue souhaitée.
Est-il utilisable pour de l’entraînement supervisé ?
Absolument, chaque exemple est annoté avec une classe binaire (0 = humain, 1 = IA), ce qui en fait une base idéale pour le supervised learning.