Resume Dataset

Dataset composé de CV collectés via web scraping, comprenant le texte brut, le HTML d’origine, et les fichiers PDF associés, classés selon 26 catégories professionnelles variées (ex. IT, Santé, Finance, Enseignement).

Télécharger le dataset

Taille

Environ 2485 CV en texte, HTML et PDF répartis en catégories professionnelles, CSV de métadonnées

Licence

CC0: Public Domain

Description

‍

Le Resume Dataset rassemble plus de 2 400 CV en formats texte, HTML et PDF, extraits de sources en ligne. Chaque CV est associé à une catégorie professionnelle précise (ex. RH, IT, Finance, Enseignement), permettant la classification et l’analyse NLP des données textuelles.

‍

À quoi sert ce dataset ?

‍

Former des modèles de classification automatique de CV selon les secteurs d’activité
Analyser et extraire des informations structurées à partir de documents professionnels
Créer des systèmes intelligents de gestion de candidatures ou de recommandation

‍

Peut-on l’enrichir ou l’améliorer ?

‍

Ce dataset peut être enrichi par l’ajout de CV multilingues, la normalisation des formats PDF, et l’annotation supplémentaire (ex. compétences, expériences, diplômes). La transformation des CV en formats structurés (JSON) améliorerait l’exploitation.

‍

🔎 En résumé

Critère	Évaluation
🧩 Facilité d’utilisation	⭐⭐⭐✩✩ (Nécessite traitement des différents formats)
🧼 Besoin de nettoyage	⭐⭐⭐✩✩ (Modéré – PDF et HTML demandent parsing)
🏷️ Richesse des annotations	⭐⭐⭐✩✩ (Catégories précises, pas d’annotations détaillées)
📜 Licence commerciale	✅ Oui (CC0)
👨‍💻 Idéal pour les débutants	⚠️ Moyennement, utile pour projets NLP intermédiaires
🔁 Réutilisable en fine-tuning	🗂️ Adapté pour classification et extraction d’informations
🌍 Diversité culturelle	⚠️ Principalement CV anglophones, diversité limitée