Human vs LLM Text Corpus – Détection de texte généré
Corpus comparatif entre textes humains et textes générés par des modèles LLMs, utile pour la détection de contenu automatisé ou l’analyse stylistique.
Description
Le dataset Human vs LLM Text Corpus contient plus de 788 000 exemples textuels, divisés entre contenu rédigé par des humains et contenu généré automatiquement par divers modèles de langage (LLMs). Il constitue une ressource de référence pour les travaux de détection de texte généré par l’IA, de classification ou de recherche en linguistique computationnelle.
À quoi sert ce dataset ?
- Former des modèles pour détecter automatiquement les textes IA vs humains
- Analyser les différences stylistiques ou structurelles entre les deux sources
- Évaluer la robustesse des détecteurs de génération automatique dans différents contextes
Peut-on l’enrichir ou l’améliorer ?
Oui, des enrichissements sont possibles, comme l’ajout de métadonnées (modèle génératif utilisé, longueur, thème) ou l’équilibrage des corpus selon les types de contenus. Il peut aussi être segmenté par domaine (scientifique, créatif, narratif...) pour affiner les modèles de détection.
🔎 En résumé
🧠 Recommandé pour
- Chercheurs en détection de génération IA
- Projets académiques en NLP
- Outils de modération automatique
🔧 Outils compatibles
- Scikit-learn
- Hugging Face Transformers
- OpenAI
- SpaCy
💡 Astuce
Combine ce dataset avec des textes web publics pour améliorer la généralisation d’un modèle de détection IA.
Questions fréquemment posées
Le dataset est-il équilibré entre contenu humain et contenu généré ?
Oui, les textes sont globalement bien répartis entre humains et LLMs, ce qui le rend adapté aux tâches de classification binaire.
Est-ce que les modèles utilisés pour générer les textes sont précisés ?
Pas toujours, certains textes précisent leur origine (ChatGPT, etc.), mais l’information peut être incomplète selon les cas.
Est-il utilisable tel quel pour un fine-tuning supervisé ?
Oui, il est prêt à l’emploi pour l’entraînement de modèles supervisés, notamment pour des tâches de détection ou de classification.




