En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Human vs LLM Text Corpus – Détection de texte généré
Texte

Human vs LLM Text Corpus – Détection de texte généré

Corpus comparatif entre textes humains et textes générés par des modèles LLMs, utile pour la détection de contenu automatisé ou l’analyse stylistique.

Télécharger le dataset
Taille

Environ 790 000 entrées textuelles, format CSV

Licence

MIT

Description

Le dataset Human vs LLM Text Corpus contient plus de 788 000 exemples textuels, divisés entre contenu rédigé par des humains et contenu généré automatiquement par divers modèles de langage (LLMs). Il constitue une ressource de référence pour les travaux de détection de texte généré par l’IA, de classification ou de recherche en linguistique computationnelle.

À quoi sert ce dataset ?

  • Former des modèles pour détecter automatiquement les textes IA vs humains
  • Analyser les différences stylistiques ou structurelles entre les deux sources
  • Évaluer la robustesse des détecteurs de génération automatique dans différents contextes

Peut-on l’enrichir ou l’améliorer ?

Oui, des enrichissements sont possibles, comme l’ajout de métadonnées (modèle génératif utilisé, longueur, thème) ou l’équilibrage des corpus selon les types de contenus. Il peut aussi être segmenté par domaine (scientifique, créatif, narratif...) pour affiner les modèles de détection.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐⭐✩ (Données prêtes à l’emploi)
🧼 Besoin de nettoyage⭐⭐⭐⭐⭐ (Faible – données déjà structurées et bien séparées)
🏷️ Richesse des annotations⭐⭐⭐✩✩ (Moyenne – distinction IA/humain, mais peu de contexte)
📜 Licence commerciale✅ Oui (MIT)
👨‍💻 Idéal pour les débutants🌟 Très bon pour démarrer avec du NLP de classification
🔁 Réutilisable en fine-tuning🎯 Oui, idéal pour fine-tuning binaire ou contrastif
🌍 Diversité culturelle⚠️ Variable – dépend des sources, à valider en amont

🧠 Recommandé pour

  • Chercheurs en détection de génération IA
  • Projets académiques en NLP
  • Outils de modération automatique

🔧 Outils compatibles

  • Scikit-learn
  • Hugging Face Transformers
  • OpenAI
  • SpaCy

💡 Astuce

Combine ce dataset avec des textes web publics pour améliorer la généralisation d’un modèle de détection IA.

Questions fréquemment posées

Le dataset est-il équilibré entre contenu humain et contenu généré ?

Oui, les textes sont globalement bien répartis entre humains et LLMs, ce qui le rend adapté aux tâches de classification binaire.

Est-ce que les modèles utilisés pour générer les textes sont précisés ?

Pas toujours, certains textes précisent leur origine (ChatGPT, etc.), mais l’information peut être incomplète selon les cas.

Est-il utilisable tel quel pour un fine-tuning supervisé ?

Oui, il est prêt à l’emploi pour l’entraînement de modèles supervisés, notamment pour des tâches de détection ou de classification.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.