En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Open Datasets
Resume Dataset
Texte

Resume Dataset

Dataset composé de CV collectés via web scraping, comprenant le texte brut, le HTML d’origine, et les fichiers PDF associés, classés selon 26 catégories professionnelles variées (ex. IT, Santé, Finance, Enseignement).

Télécharger le dataset
Taille

Environ 2485 CV en texte, HTML et PDF répartis en catégories professionnelles, CSV de métadonnées

Licence

CC0: Public Domain

Description

Le Resume Dataset rassemble plus de 2 400 CV en formats texte, HTML et PDF, extraits de sources en ligne. Chaque CV est associé à une catégorie professionnelle précise (ex. RH, IT, Finance, Enseignement), permettant la classification et l’analyse NLP des données textuelles.

À quoi sert ce dataset ?

  • Former des modèles de classification automatique de CV selon les secteurs d’activité
  • Analyser et extraire des informations structurées à partir de documents professionnels
  • Créer des systèmes intelligents de gestion de candidatures ou de recommandation

Peut-on l’enrichir ou l’améliorer ?

Ce dataset peut être enrichi par l’ajout de CV multilingues, la normalisation des formats PDF, et l’annotation supplémentaire (ex. compétences, expériences, diplômes). La transformation des CV en formats structurés (JSON) améliorerait l’exploitation.

🔎 En résumé

Critère Évaluation
🧩 Facilité d’utilisation⭐⭐⭐✩✩ (Nécessite traitement des différents formats)
🧼 Besoin de nettoyage⭐⭐⭐✩✩ (Modéré – PDF et HTML demandent parsing)
🏷️ Richesse des annotations⭐⭐⭐✩✩ (Catégories précises, pas d’annotations détaillées)
📜 Licence commerciale✅ Oui (CC0)
👨‍💻 Idéal pour les débutants⚠️ Moyennement, utile pour projets NLP intermédiaires
🔁 Réutilisable en fine-tuning🗂️ Adapté pour classification et extraction d’informations
🌍 Diversité culturelle⚠️ Principalement CV anglophones, diversité limitée

🧠 Recommandé pour

  • Développeurs NLP
  • Recrutement automatisé
  • Cas d'usage IA RH nécessitant un traitement de documents important

🔧 Outils compatibles

  • PyPDF2
  • BeautifulSoup
  • Hugging Face Transformers
  • Scikit-learn

💡 Astuce

Convertir les PDF en texte brut et normaliser les formats avant entraînement pour optimiser les résultats.

Questions fréquemment posées

Ce dataset permet-il de classer automatiquement les CV selon le métier visé ?

Oui, chaque CV est annoté avec une catégorie professionnelle qui peut servir de label pour des modèles de classification.

Quels formats de fichiers sont inclus dans ce dataset ?

Le dataset contient des CV au format texte brut, HTML et PDF, avec un fichier CSV de métadonnées.

Est-ce que ce dataset comprend des CV en plusieurs langues ?

Principalement en anglais, sans annotations multilingues.

Datasets similaires

Voir plus
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.