[發明專利]一種大數量人才簡歷去重匹配分析方法有效
| 申請號: | 201811532406.9 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109740147B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 鄭銳韜;涂旭平;李勇波;季統凱 | 申請(專利權)人: | 國云科技股份有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/279;G06F16/335;G06Q10/1053 |
| 代理公司: | 廈門市新華專利商標代理有限公司 35203 | 代理人: | 徐勛夫 |
| 地址: | 523808 廣東省東莞市松山湖高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數量 人才 簡歷 匹配 分析 方法 | ||
本發明涉及大數據匹配分析技術領域,尤其是一種大數量人才簡歷去重匹配分析方法。本發明方法基于LAS(潛在語義分析)算法及FP?Growth算法,利用LAS(潛在語義分析)算法高效的語義分析,獲取大數量人才簡歷的特征,基于FP?Growth算法對簡歷特征進行關聯匹配,從而判斷大數量人才簡歷中是否為重復的一個人的信息。本發明方法提高了傳統通過兩兩人才簡歷特征一一匹配分析的效率;使大數量的人才簡歷可快速分別出同為一個人的簡歷并進行合并;減少了大量簡歷的重復問題,為后續的檢索、查詢提供了高效的信息內容。
技術領域
本發明涉及大數據匹配分析技術領域,尤其是一種大數量人才簡歷去重匹配分析方法。
背景技術
隨著人才市場的發展,網上出現了大量的人才市場網;并有大量的人才在各大人才市場網上注冊并填寫個人簡歷信息。對于企業來說,查找人才并確定人才是一個剛需,如何準確查找到需要的人才,則需要匯總各人才市場上的人才簡歷信息;一般可通過爬蟲進行獲取,然后從中獲取各人才的信息。
在獲取、收集各大人才市場網的個人簡歷的過程,會遇到同一個人但在多個人才市場網上登記的情況;但是由于一些獲取數據的流程的原因,一般無法獲取人才簡歷的姓名或明確的特征信息;所以在獲取了大數量的人才簡歷后,如何快速地實現重復人才簡歷的識別,涉及快速提高人才查找的效率。一般通過爬蟲獲取的資料,都為非結構化的信息,所以就需通過技術的方法,解決大量人才簡歷去重匹配識別問題,提高人才簡歷的查找效率。
發明內容
本發明解決的技術問題在于提供一種大數量人才簡歷去重匹配分析方法;解決人才簡歷去重匹配識別問題,提高人才簡歷的查找效率。
本發明解決上述技術問題的技術方案是:
所述的方法包括以下步驟:
步驟1:獲取大數量人才簡歷的內容,分別按標點符號進行刪除處理;
步驟2:輸入每個處理后的簡歷信息,構建形成基于每個人才簡歷的詞-文檔矩陣,每個人才簡歷分析得出多個代表詞語,及各詞語的出現次數,按出現的次數進行統計;
步驟3:對統計后的每個簡歷的詞頻進行處理,去除常用的介詞、副詞、助詞,對于單字出現頻率較高的詞,進行分開另行統計處理;把處理后的各個簡歷的詞頻按簡歷特征進行一對多的保存,形成各個簡歷的特征;
步驟4:從獲取的第一個簡歷開始與后面的各個簡歷形成人才簡歷對進行兩兩關聯分析,構建FP-Growth關聯樹進行兩兩關聯分析;獲取各人才簡歷基于TrieTree提取出來的特征作為輸入,分析兩兩人才簡歷的關聯度;
步驟5:經過關聯分析處理后,按簡歷對獲取有關聯的特征及特征的詞頻,對關聯的特征的詞頻進行統計,關聯出來的簡歷特征按詞頻分別統計相同的詞匯的數據,統計相同詞匯的占比;
步驟6:分析進行關聯對比的人才簡歷間的詞頻的詞匯相同比率,超過50的相同詞匯,判定為同一個人的不同簡歷,可合并為同一個人的信息;對于低于10%的簡歷,判斷為不是同一個人;對于相同率在10%~50%的簡歷,按相同率形成匹配度,進行標識,并可后續由人工進行判定。
所述的步驟5中,把關聯分析統計出來的兩兩人才簡歷對的特征及詞頻的詞匯分為兩部分:
1)、詞頻次數大于1、且詞頻的數量大于20的:對于此部分的識別率,占識別匹配分析的比重60%;
2)、詞頻數量為1的,且詞頻長度大于2的對于此部分的識別率,占識別匹配分析的比重40%。
在所述的步驟5中,大數量人才簡歷去重匹配分析的過程為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國云科技股份有限公司,未經國云科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811532406.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種輿情監測方法、終端及存儲介質
- 下一篇:一種基于遠程監督的同義詞提取方法





