Resume Dataset

Conjunto de datos compuesto por currículums recopilados mediante raspado web, que incluye texto sin formato, HTML original y archivos PDF asociados, clasificados en 26 categorías profesionales variadas (por ejemplo, TI, salud, salud, finanzas, educación).

Obtén el dataset

Tamaño

Aproximadamente 2.485 currículums en texto, HTML y PDF divididos en categorías profesionales, metadatos CSV

Licencia

CC0: Dominio público

Descripción

‍

El Resume Dataset reúne más de 2.400 currículos en formato texto, HTML y PDF, extraídos de fuentes en línea. Cada CV está asociado a una categoría profesional específica (por ejemplo, RRHH, TI, TI, Finanzas, Educación), lo que permite la clasificación y el análisis de la PNL de los datos textuales.

‍

¿Para qué sirve este conjunto de datos?

‍

Forme modelos automáticos de clasificación de CV según los sectores empresariales
Analice y extraiga información estructurada de documentos profesionales
Cree sistemas inteligentes para administrar aplicaciones o recomendaciones

‍

¿Se puede enriquecer o mejorar?

‍

Este conjunto de datos se puede enriquecer añadiendo currículos multilingües, estandarizando los formatos PDF y proporcionando anotaciones adicionales (por ejemplo, habilidades, experiencias, títulos). Transformar los currículos en formatos estructurados (JSON) mejoraría la explotación.

‍

🔎 En resumen

Criterio	Evaluación
🧩 Facilidad de uso	⭐⭐⭐✩✩ (Requiere procesamiento de diferentes formatos)
🧼 Necesidad de limpieza	⭐⭐⭐✩✩ (Moderado – PDF y HTML requieren parsing)
🏷️ Riqueza de anotaciones	⭐⭐⭐✩✩ (Categorías precisas, sin anotaciones detalladas)
📜 Licencia comercial	✅ Sí (CC0)
👨‍💻 Ideal para principiantes	⚠️ Moderado, útil para proyectos NLP intermedios
🔁 Reutilizable para fine-tuning	🗂️ Adecuado para clasificación y extracción de información
🌍 Diversidad cultural	⚠️ Principalmente CV en inglés, diversidad limitada