[發明專利]一種大數量人才簡歷去重匹配分析方法有效
| 申請號: | 201811532406.9 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109740147B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 鄭銳韜;涂旭平;李勇波;季統凱 | 申請(專利權)人: | 國云科技股份有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/279;G06F16/335;G06Q10/1053 |
| 代理公司: | 廈門市新華專利商標代理有限公司 35203 | 代理人: | 徐勛夫 |
| 地址: | 523808 廣東省東莞市松山湖高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數量 人才 簡歷 匹配 分析 方法 | ||
1.一種大數量人才簡歷去重匹配分析方法,其特征在于:所述的方法包括以下步驟:
步驟1:獲取一定數量人才簡歷的內容,分別按標點符號進行刪除處理;
步驟2:輸入每個處理后的簡歷信息,構建形成基于每個人才簡歷的詞-文檔矩陣,每個人才簡歷分析得出多個代表詞語,及各詞語的出現次數,按出現的次數進行統計;
步驟3:對統計后的每個簡歷的詞頻進行處理,去除介詞、副詞、助詞,對于單字出現達到一定頻率的詞進行分開另行統計處理;把處理后的各個簡歷的詞頻按簡歷特征進行一對多的保存,形成各個簡歷的特征;
步驟4:從獲取的第一個簡歷開始與后面的各個簡歷形成人才簡歷對進行兩兩關聯分析,構建FP-Growth關聯樹進行兩兩關聯分析;獲取各人才簡歷基于TrieTree提取出來的特征作為輸入,分析兩兩人才簡歷的關聯度;
步驟5:經過關聯分析處理后,按簡歷對獲取有關聯的特征及特征的詞頻,對關聯的特征的詞頻進行統計,關聯出來的簡歷特征按詞頻分別統計相同的詞匯的數據,統計相同詞匯的占比,即詞匯相同率;
步驟6:分析進行關聯對比的人才簡歷間的詞頻的詞匯相同率,超過50%相同率的簡歷,判定為同一個人的不同簡歷,合并為同一個人的信息;對于低于10%相同率的簡歷,判斷為不是同一個人;對于相同率在10%~50%的簡歷,按相同率形成匹配度,進行標識,并可后續由人工進行判定;
所述步驟6中的詞匯相同率即詞匯的相似度。
2.根據權利要求1所述的方法,其特征在于:
所述的步驟5中,把關聯分析統計出來的兩兩人才簡歷對的特征及詞頻的詞匯分為兩部分:
1)、詞頻次數大于1且詞頻的數量大于20的:對于此部分的識別率,占識別匹配分析的比重60%;
2)、詞頻數量為1的且詞頻長度大于2的:對于此部分的識別率,占識別匹配分析的比重40%。
3.根據權利要求1所述的方法,其特征在于:
在所述的步驟5中,大數量人才簡歷去重匹配分析的過程為:
1)基于兩兩關聯分析獲取的簡歷對中相關聯的特征得出的詞頻次數大于1、且詞頻的數量大于20的詞匯,統計相同的數量,并除以兩個或更多的簡歷中詞頻次數大于1、且詞頻的數量大于20的詞匯的最大值,形成詞頻次數大于1、且詞頻的數量大于20的詞匯的相似度;
2)、基于兩兩關聯分析獲取的簡歷對中相關聯的特征得出的詞頻數量為1的,且詞頻長度大于2的詞匯,統計相同的數量,并除以兩個或更多的簡歷中詞頻數量為1的,且詞頻長度大于2的最大值,形成詞頻數量為1、且詞頻長度大于2的詞匯的相似度;
3)、1)中的相似度乘以60%加上2)中的相似度乘以40%,得出兩兩人才簡歷對的總的相似度。
4.根據權利要求2所述的方法,其特征在于:
在所述的步驟5中,大數量人才簡歷去重匹配分析的過程為:
1)基于兩兩關聯分析獲取的簡歷對中相關聯的特征得出的詞頻次數大于1、且詞頻的數量大于20的詞匯,統計相同的數量,并除以兩個或更多的簡歷中詞頻次數大于1、且詞頻的數量大于20的詞匯的最大值,形成詞頻次數大于1、且詞頻的數量大于20的詞匯的相似度;
2)、基于兩兩關聯分析獲取的簡歷對中相關聯的特征得出的詞頻數量為1的,且詞頻長度大于2的詞匯,統計相同的數量,并除以兩個或更多的簡歷中詞頻數量為1的,且詞頻長度大于2的最大值,形成詞頻數量為1、且詞頻長度大于2的詞匯的相似度;
3)、1)中的相似度乘以60%加上2)中的相似度乘以40%,得出兩兩人才簡歷對的總的相似度。
5.根據權利要求3或4所述的方法,其特征在于:對于總的相似度大于50%表示兩個人才簡歷為同一個人,簡歷合并為同一個人的名下;對于總的相似度小于10%表示兩個人才簡歷不是同一個人,而且兩份簡歷的相似度極低;對于總的相似度在10%至50%區間,表兩份人才簡歷有相關的匹配度,相似度越高表示匹配度越高,可進行人工介入識別,同時也可為后續的人才簡歷檢索,提供人才畫像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國云科技股份有限公司,未經國云科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811532406.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種輿情監測方法、終端及存儲介質
- 下一篇:一種基于遠程監督的同義詞提取方法





