Resume Dataset
Conjunto de datos compuesto por currículums recopilados mediante raspado web, que incluye texto sin formato, HTML original y archivos PDF asociados, clasificados en 26 categorías profesionales variadas (por ejemplo, TI, salud, salud, finanzas, educación).
Aproximadamente 2.485 currículums en texto, HTML y PDF divididos en categorías profesionales, metadatos CSV
CC0: Dominio público
Descripción
El Resume Dataset reúne más de 2.400 currículos en formato texto, HTML y PDF, extraídos de fuentes en línea. Cada CV está asociado a una categoría profesional específica (por ejemplo, RRHH, TI, TI, Finanzas, Educación), lo que permite la clasificación y el análisis de la PNL de los datos textuales.
¿Para qué sirve este conjunto de datos?
- Forme modelos automáticos de clasificación de CV según los sectores empresariales
- Analice y extraiga información estructurada de documentos profesionales
- Cree sistemas inteligentes para administrar aplicaciones o recomendaciones
¿Se puede enriquecer o mejorar?
Este conjunto de datos se puede enriquecer añadiendo currículos multilingües, estandarizando los formatos PDF y proporcionando anotaciones adicionales (por ejemplo, habilidades, experiencias, títulos). Transformar los currículos en formatos estructurados (JSON) mejoraría la explotación.
🔎 En resumen
🧠 Recomendado para
- programadores de PNL
- Reclutadores automatizados
- Procesamiento de documentos
🔧 Herramientas compatibles
- PyPDF2
- BeautifulSoup
- Hugging Face Transformers
- Scikit-learn
💡 Consejo
Convierte archivos PDF a texto sin formato y estandariza los formatos antes del entrenamiento para optimizar los resultados.
Preguntas frecuentes
¿Este conjunto de datos permite clasificar automáticamente los currículos según la profesión a la que se destina?
Sí, cada currículum está anotado con una categoría profesional que se puede usar como etiqueta para los modelos de clasificación.
¿Qué formatos de archivo se incluyen en este conjunto de datos?
El conjunto de datos contiene currículums en formato de texto sin formato, HTML y PDF, con un archivo de metadatos CSV.
¿Este conjunto de datos incluye currículos en varios idiomas?
Principalmente en inglés, sin anotaciones multilingües.