Coder Social home page Coder Social logo

pankajmehar / resume-parse-evaluation Goto Github PK

View Code? Open in Web Editor NEW

This project forked from wanghaisheng/resume-parse-evaluation

0.0 1.0 0.0 4.29 MB

Evaluate existing engine of resume parse for Chinese 对各种简历解析工具的测评

License: MIT License

HTML 99.42% Shell 0.58%

resume-parse-evaluation's Introduction

resume-parse-evaluation

Evaluate existing engine of resume parse for Chinese 对各种简历解析工具的测评

从简历中提取感兴趣的字段

Background

一般来讲,不同的候选者和公司所选择的招聘渠道的不同,我们会收到不同类型的简历:

1.1 各大招聘网站上的网页版或网站上提供下载的简历

应聘者在各网站上,包括外部的网站和自己公司的网站,按网站提供的固定模板填写信息,形成网页版或从网页下载的其它格式简历(统称网页版简历)。

针对网页版简历的基础解析技术,各公司准确率不相上下,难度在于针对每一个固定模板做细致的分析,简历解析技术的准确度依赖于勤奋和经验。 智联、51、拉勾、猎聘、

1.2 应聘者按照自己的想法和偏好,制作word、pdf、png,甚至是 excel 格式的电子文档简历。

这种简历格式五花八门,由于不是直接以网页代码的模式呈现,且没有相对固定的模板和关键词字段,就给系统识别带来了挑战。对于系统来讲,要寻找规律并进行判断和识别就会有一定的难度,这一类的简历解析无法做到百分百。

1.3 简历文件的格式

doc, docx, xls, xlsx, mht, mhtml, html, htm, txt, pdf, rtf, eml, wps, xml, dotx, msg, jpeg, jpg, gif, png, bmp 等格式,基本上覆盖了招聘市场上99%的简历格式。

1.4 简历中的数据

中英文混合,大概有100余个字段,涵盖基本信息、联系方式、期望职位、教育经历、工作经历、 项目经历、技能、语言能力、证书、自我评价等字段信息。

Tools

商业化软件和解决方案

公司名称 网站 网友评价 测试demo 支持格式 价格 部署方式 其他
捕鱼科技 http://www.buyu-tech.com/ http://www.cv-parser.com/ -- Y 不支持图片 pdf、doc、docx、html、htm、txt、zip、mht、ppt等 --- SaaS和本地部署
云解析 http://youyun.com 他家的demo效果很一般,稍微特殊一点的情况就处理不好; Y 21种简历格式 支持图片 saas
cv-extract 北京有本科技 http://k18.com.cn 这家做解析有一定的时间了,改头换面也包装了几家分店。总体效果还可以,但还存在不少的问题; Y 支持图片 SaaS和本地部署
北京云湾科技有限公司 http://resumesdk.com 这家比较低调,感觉不太善于宣传,但总体效果是三家中最好的,特别是能很好解决不同网站模板包括自由格式的简历,而且上手很简单方便。 Y 支持图片 SaaS和本地部署
德士达科技公司 http://www.daxtra.cn/ 简历解析Daxtra 做得相当不错,我听说他们香港有设点也在国内推广,听说是爱丁堡大学教授开发的算法。蛮多外国大公司和猎头用他们的。 N -- -- --
杭州少世科技有限公司 www.littleparser.com 小析简历解析,免费试用现在,国际大数据团队研发的 Y 不支持图片 -- SaaS --
山卡拉 http://cv-extract.com/ -- Y 不可用 不支持图片 -- SaaS ---
CV Tech 简历 http://www.jianlijiexi.com/ -- Y 支持图片 -- SaaS和本地部署 ---
大易 http://www.dayee.com/wt/dayee/dayeePageresume -- N 不支持图片 -- -- --

开源库

Benchmark resumes

从网络上收集一些公开获取的简历数据,不适之处请联系删除

Todos

  • xxxxx.

Prospective project tree:

  ├── README.md
  ├── resume-samples
  |   ├── pdf
  |   |   └── ca-warn-2013
  |   |       ├── 001.csv
  |   |       ├── 002.csv
  |   |       └── 003.csv
  |   ├── word
  |   |   └── ca-warn-2013
  |   |       ├── 001.csv
  |   |       ├── 002.csv
  |   |       └── 003.csv
  |   ├── html
  |   |   └── ca-warn-2013
  |   |       ├── 001.csv
  |   |       ├── 002.csv
  |   |       └── 003.csv
  |   ├── txt
  |   |   └── ca-warn-2013
  |   |       ├── 001.csv
  |   |       ├── 002.csv
  |   |       └── 003.csv
  |   ├── excel
  |   |   └── ca-warn-2013
  |   |       ├── 001.csv
  |   |       ├── 002.csv
  |   |       └── 003.csv
  |   ├── mdht
  |   |   └── ca-warn-2013
  |   |       ├── 001.csv
  |   |       ├── 002.csv
  |   |       └── 003.csv      
  ├── results
  |   ├── pdf
  |   |   └── 捕鱼
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云解析
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv     
  |   |   └── 有本科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云湾科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv             
  |   ├── html
  |   |   └── 捕鱼
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云解析
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv     
  |   |   └── 有本科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云湾科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv 
  |   ├── txt
  |   |   └── 捕鱼
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云解析
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv     
  |   |   └── 有本科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云湾科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv 
  |   ├── excel
  |   |   └── 捕鱼
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云解析
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv     
  |   |   └── 有本科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云湾科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv 
  |   ├── word
  |   |   └── 捕鱼
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云解析
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv     
  |   |   └── 有本科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云湾科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv 
  |   ├── mdht
  |   |   └── 捕鱼
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云解析
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv     
  |   |   └── 有本科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv
  |   |   └── 云湾科技
  |   |   |   ├── 001.csv
  |   |   |   ├── 002.csv
  |   |   |   └── 003.csv 

Example test suite and results

java -jar \
    bins/tabula-0.9.1-jar-with-dependencies.jar --pages all \
    pdfs/nypd-weekly-stats.pdf \
    > results/tabula-java/nypd-weekly-stats.csv

java -jar \
    bins/tabula-0.9.1-jar-with-dependencies.jar --pages all \
    pdfs/menlo-park-sunridge-cad-interface.pdf \
    > results/tabula-java/menlo-park-sunridge-cad-interface.csv

resume-parse-evaluation's People

Contributors

wanghaisheng avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.