En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
AI-Generated Essays Dataset
Texte

AI-Generated Essays Dataset

Ce dataset propose un corpus équilibré de textes générés par l’homme et par l’IA, avec annotation binaire (0 = humain, 1 = IA). Il est conçu pour entraîner des détecteurs de texte synthétique ou explorer les différences stylistiques entre écriture humaine et automatique.

Télécharger le dataset
Taille

1460 essais au format CSV (≈ 200 tokens chacun)

Licence

CC0: Public Domain

Description

Le dataset AI-Generated Essays Dataset contient 1 460 essais, dont une petite fraction (environ 6 %) a été générée par une intelligence artificielle. Chaque ligne comprend le texte complet et une étiquette indiquant s’il a été rédigé par un humain ou une IA. Ce corpus sert de référence pour entraîner, tester et analyser des modèles capables de différencier la provenance d’un texte.

À quoi sert ce dataset ?

  • Entraîner un modèle de détection de texte généré par IA (TF-IDF, transformers, etc.).
  • Analyser les différences stylistiques entre langage humain et généré.
  • Créer des outils pédagogiques ou des défis en data science autour de la détection de texte synthétique.

Peut-on l’enrichir ou l’améliorer ?

Oui. On peut étendre le corpus avec des textes plus longs ou dans d’autres langues. Il est aussi possible d’ajouter des annotations linguistiques (longueur moyenne de phrase, complexité lexicale, etc.) ou d’y combiner des méthodes d’augmentation (back translation, paraphrase, etc.) pour mieux équilibrer les classes.

🔎 En résumé

Critère Évaluation
🧩Facilité d’utilisation ⭐⭐⭐⭐☆ (très simple, CSV prêt à l’emploi)
🧼Besoin de nettoyage ⭐⭐⭐☆☆ (données déjà propres)
🏷️Richesse des annotations ⭐☆☆☆☆ (limité à une étiquette binaire)
📜Licence commerciale ✅ Oui (CC0)
👨‍💻Idéal pour les débutants 👶 Parfait pour démarrer sur la détection de texte IA
🔁Réutilisable en fine-tuning ⚠️ Faible volume → utile en phase d’amorçage ou test
🌍Diversité culturelle 🌍 Faible – textes probablement en anglais, pas de contexte géographique

🧠 Recommandé pour

  • Formateurs NLP
  • Étudiants en data science
  • Projets de détection IA légère

🔧 Outils compatibles

  • Scikit-learn
  • SpaCy
  • BERT
  • SHAP
  • LIME

💡 Astuce

Pour compenser l’imbalance des classes, appliquez un oversampling SMOTE ou une pondération dynamique dans la fonction de perte.

Questions fréquemment posées

Ce dataset est-il suffisant pour entraîner un détecteur IA fiable ?

Il est adapté à des expériences de prototypage ou à des projets pédagogiques, mais un volume plus grand sera nécessaire pour la production.

Peut-on l’adapter à d’autres langues ?

Oui, il est possible de le traduire ou de créer des versions multilingues en générant des essais IA dans la langue souhaitée.

Est-il utilisable pour de l’entraînement supervisé ?

Absolument, chaque exemple est annoté avec une classe binaire (0 = humain, 1 = IA), ce qui en fait une base idéale pour le supervised learning.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.