[發明專利]一種基于垂直搜索引擎的簡歷解析系統在審
| 申請號: | 201910302297.X | 申請日: | 2019-04-16 |
| 公開(公告)號: | CN110020327A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 申剛正 | 申請(專利權)人: | 上海大易云計算股份有限公司 |
| 主分類號: | G06F16/957 | 分類號: | G06F16/957;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200120 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 簡歷內容 垂直搜索引擎 抽取單元 分割單元 解析系統 文件文本 優化單元 解析 格式化 解析信息 鏈接獲取 統一轉換 文本內容 文本轉換 自動識別 內容項 鏈接 記錄 分析 文本 教育 渠道 統一 | ||
本發明公開了一種基于垂直搜索引擎的簡歷解析系統,包括簡歷文件文本抽取單元、簡歷內容分割單元和簡歷內容分析優化單元;簡歷文件文本抽取單元,對于一些渠道的簡歷,郵件中沒有實際的簡歷內容而只有鏈接,通過打開鏈接獲取真實簡歷的內容;簡歷內容分割單元用于設定簡歷解析信息集的關鍵字,例如工作經歷、教育經歷,使用這些關鍵字區分簡歷的大類別;簡歷內容分析優化單元用于解析多條記錄的內容項,如工作經歷、教育經歷首先進行記錄劃分;本發明可以自動識別不同格式的簡歷,使用文本轉換技術,統一轉換成文本,然后將文本內容解析成格式化的簡歷,用統一的格式將簡歷內容展現出來。
技術領域
本發明涉及信息檢索領域,具體為一種基于垂直搜索引擎的簡歷解析系統。
背景技術
目前招聘的效率不高,主要原因在候選人和企業不能很好的匹配,求職者需要在不同的招聘網站投遞職位,而且相同的職位有好幾十上百頁,由于信息大致相同,候選人為了省事,因此簡歷“海投”,公司HR則“海選”,雙方都費時費力,效率低下。
缺點一、不同格式的簡歷,需要不同的工具查看,例如使用Office查看word、excel格式的簡歷,使用Re1der查看pdf的簡歷,使用瀏覽器查看html、mht格式的簡歷等等。
缺點二、簡歷內容、簡歷格式多種多樣,例如聯系方式、年齡、工作年限、求職意向等關鍵信息,有些在簡歷內容的最后,有些夾雜在自我評價中,有些甚至沒有直接描述。
缺點三、簡歷存儲分散,文件格式多樣,不易管理、不易查找。
缺點四、經常收到同一個人的不同渠道的簡歷,不易判斷這個人是否投遞過職位,是否已經在該職位上被淘汰。
發明內容
本發明的目的在于提供一種基于垂直搜索引擎的簡歷解析系統,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種基于垂直搜索引擎的簡歷解析系統,包括簡歷文件文本抽取單元、簡歷內容分割單元和簡歷內容分析優化單元;
簡歷文件文本抽取單元,對于一些渠道的簡歷,郵件中沒有實際的簡歷內容而只有鏈接,通過打開鏈接獲取真實簡歷的內容;
簡歷內容分割單元:設定簡歷解析信息集的關鍵字,例如工作經歷、教育經歷,使用這些關鍵字區分簡歷的大類別;
簡歷內容分析優化單元:解析多條記錄的內容項,如工作經歷、教育經歷首先進行記錄劃分。
優選的,所述簡歷文件文本抽取單元連接至簡歷內容分割單元,簡歷內容分割單元連接至簡歷內容分析優化單元。
優選的,所述簡歷文件文本抽取單元包括Office文本及圖片抽取模塊,pdf文本及圖片抽取模塊,圖片OCR文字識別模塊,HTML文本及圖片抽取模塊;其中:
Office文本及圖片抽取模塊,對于Word、excel格式的簡歷,直接讀取文件里面的文本內容;
pdf文本及圖片抽取模塊,對于pdf格式的簡歷,直接讀取文件里面的文本內容;
圖片OCR文字識別模塊,對于圖片格式的簡歷,通過OCR文字識別技術,識別文字內容;
HTML文本及圖片抽取模塊,可自動訪問郵件服務器,獲取郵件內容,郵件內容包括正文和附件,簡歷也可能在正文或附件中;獲取所有郵件正文及附件格式信息,優先讀取HTML格式的內容。
優選的,所述簡歷內容分割單元包括多人簡歷、多語言簡歷分割模塊,簡歷信息集分割模塊,簡歷信息項分割模塊;其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大易云計算股份有限公司,未經上海大易云計算股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910302297.X/2.html,轉載請聲明來源鉆瓜專利網。





