Resume Dataset
Dataset composé de CV collectés via web scraping, comprenant le texte brut, le HTML d’origine, et les fichiers PDF associés, classés selon 26 catégories professionnelles variées (ex. IT, Santé, Finance, Enseignement).
Environ 2485 CV en texte, HTML et PDF répartis en catégories professionnelles, CSV de métadonnées
CC0: Public Domain
Description
Le Resume Dataset rassemble plus de 2 400 CV en formats texte, HTML et PDF, extraits de sources en ligne. Chaque CV est associé à une catégorie professionnelle précise (ex. RH, IT, Finance, Enseignement), permettant la classification et l’analyse NLP des données textuelles.
À quoi sert ce dataset ?
- Former des modèles de classification automatique de CV selon les secteurs d’activité
- Analyser et extraire des informations structurées à partir de documents professionnels
- Créer des systèmes intelligents de gestion de candidatures ou de recommandation
Peut-on l’enrichir ou l’améliorer ?
Ce dataset peut être enrichi par l’ajout de CV multilingues, la normalisation des formats PDF, et l’annotation supplémentaire (ex. compétences, expériences, diplômes). La transformation des CV en formats structurés (JSON) améliorerait l’exploitation.
🔎 En résumé
🧠 Recommandé pour
- Développeurs NLP
- Recrutement automatisé
- Cas d'usage IA RH nécessitant un traitement de documents important
🔧 Outils compatibles
- PyPDF2
- BeautifulSoup
- Hugging Face Transformers
- Scikit-learn
💡 Astuce
Convertir les PDF en texte brut et normaliser les formats avant entraînement pour optimiser les résultats.
Questions fréquemment posées
Ce dataset permet-il de classer automatiquement les CV selon le métier visé ?
Oui, chaque CV est annoté avec une catégorie professionnelle qui peut servir de label pour des modèles de classification.
Quels formats de fichiers sont inclus dans ce dataset ?
Le dataset contient des CV au format texte brut, HTML et PDF, avec un fichier CSV de métadonnées.
Est-ce que ce dataset comprend des CV en plusieurs langues ?
Principalement en anglais, sans annotations multilingues.