Al hacer clic en "Aceptar", usted acepta que se almacenen cookies en su dispositivo para mejorar la navegación del sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para más información.  pour plus d'informations.
Open Datasets
Resume Dataset
Texto

Resume Dataset

Conjunto de datos compuesto por currículums recopilados mediante raspado web, que incluye texto sin formato, HTML original y archivos PDF asociados, clasificados en 26 categorías profesionales variadas (por ejemplo, TI, salud, salud, finanzas, educación).

Obtén el dataset
Tamaño

Aproximadamente 2.485 currículums en texto, HTML y PDF divididos en categorías profesionales, metadatos CSV

Licencia

CC0: Dominio público

Descripción

El Resume Dataset reúne más de 2.400 currículos en formato texto, HTML y PDF, extraídos de fuentes en línea. Cada CV está asociado a una categoría profesional específica (por ejemplo, RRHH, TI, TI, Finanzas, Educación), lo que permite la clasificación y el análisis de la PNL de los datos textuales.

¿Para qué sirve este conjunto de datos?

  • Forme modelos automáticos de clasificación de CV según los sectores empresariales
  • Analice y extraiga información estructurada de documentos profesionales
  • Cree sistemas inteligentes para administrar aplicaciones o recomendaciones

¿Se puede enriquecer o mejorar?

Este conjunto de datos se puede enriquecer añadiendo currículos multilingües, estandarizando los formatos PDF y proporcionando anotaciones adicionales (por ejemplo, habilidades, experiencias, títulos). Transformar los currículos en formatos estructurados (JSON) mejoraría la explotación.

🔎 En resumen

Criterio Evaluación
🧩 Facilidad de uso⭐⭐⭐✩✩ (Requiere procesamiento de diferentes formatos)
🧼 Necesidad de limpieza⭐⭐⭐✩✩ (Moderado – PDF y HTML requieren parsing)
🏷️ Riqueza de anotaciones⭐⭐⭐✩✩ (Categorías precisas, sin anotaciones detalladas)
📜 Licencia comercial✅ Sí (CC0)
👨‍💻 Ideal para principiantes⚠️ Moderado, útil para proyectos NLP intermedios
🔁 Reutilizable para fine-tuning🗂️ Adecuado para clasificación y extracción de información
🌍 Diversidad cultural⚠️ Principalmente CV en inglés, diversidad limitada

🧠 Recomendado para

  • programadores de PNL
  • Reclutadores automatizados
  • Procesamiento de documentos

🔧 Herramientas compatibles

  • PyPDF2
  • BeautifulSoup
  • Hugging Face Transformers
  • Scikit-learn

💡 Consejo

Convierte archivos PDF a texto sin formato y estandariza los formatos antes del entrenamiento para optimizar los resultados.

Preguntas frecuentes

¿Este conjunto de datos permite clasificar automáticamente los currículos según la profesión a la que se destina?

Sí, cada currículum está anotado con una categoría profesional que se puede usar como etiqueta para los modelos de clasificación.

¿Qué formatos de archivo se incluyen en este conjunto de datos?

El conjunto de datos contiene currículums en formato de texto sin formato, HTML y PDF, con un archivo de metadatos CSV.

¿Este conjunto de datos incluye currículos en varios idiomas?

Principalmente en inglés, sin anotaciones multilingües.

Otros datasets

Ver más
Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.

Category

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique.