[發明專利]一種基于n-gram模型的簡歷解析方法有效
| 申請號: | 201710325550.4 | 申請日: | 2017-05-10 |
| 公開(公告)號: | CN107145584B | 公開(公告)日: | 2020-06-19 |
| 發明(設計)人: | 楊春明;張暉;李建飛;李波;趙旭劍 | 申請(專利權)人: | 西南科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q10/06;G06Q10/10;G06F40/289 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 胡川 |
| 地址: | 621000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 gram 模型 簡歷 解析 方法 | ||
1.一種基于n-gram模型的簡歷解析方法,其特征在于,包括:
S1:收集預定數量的簡歷樣本;
S2:統計所述簡歷樣本中的常用字段關鍵詞,并將常用字段關鍵詞按照不同描述類型劃分為不同類別,形成分類詞典;
S3:將所述簡歷樣本中緊鄰每一常用字段關鍵詞之后出現的非關鍵詞記為樣本關聯詞,并采用n-gram模型統計每一常用字段關鍵詞轉變到各樣本關聯詞的轉移概率;
S4:將待解析簡歷的文件格式轉換為純文本格式;
S5:采用最大匹配算法在所述待解析簡歷中查找與分類詞典中的常用字段關鍵詞相匹配的目標關鍵詞;
S6:判斷所述目標關鍵詞對應的轉移概率是否大于預定閾值,如果大于預定閾值,則將目標關鍵詞判定為有效關鍵詞;
S7:將所述待解析簡歷中緊鄰每一有效關鍵詞之后出現的非關鍵詞記為有效關聯詞,并根據所述有效關聯詞更新每一常用字段關鍵詞對應的轉移概率;
S8:利用所述分類詞典對待解析簡歷中的有效關鍵詞增加前綴標注和后綴標注;
S9:根據所述前綴標注和后綴標注對待解析簡歷的文本內容進行分段提取,并將分段提取后的文本內容按照預定格式進行輸出。
2.根據權利要求1所述的簡歷解析方法,其特征在于,所述非關鍵詞為連續兩個字符,所述步驟S3具體為;采用tri-gram模型統計每一常用字段關鍵詞轉變到各樣本關聯詞的轉移概率。
3.根據權利要求1所述的簡歷解析方法,其特征在于,所述步驟S5具體包括:
將所述待解析簡歷的文本內容按照預定長度進行切分,形成待分詞文本;
掃描所述待分詞文本,當掃描到與分類詞典中的常用字段關鍵詞相匹配的第一個字符時,從所述第一個字符開始記錄,直到掃描不到與分類詞典中的常用字段關鍵詞相匹配的字符為止;
將記錄下的所有字符組成目標關鍵詞。
4.根據權利要求1所述的簡歷解析方法,其特征在于,所述根據所述有效關聯詞更新每一常用字段關鍵詞對應的轉移概率的步驟具體為:
判斷所述各樣本關聯詞中是否存在與有效關聯詞相同的樣本關聯詞;
如果存在與有效關聯詞相同的樣本關聯詞,則更新每一常用字段關鍵詞轉變到有效關聯詞的轉移概率;
如果不存在與有效關聯詞相同的樣本關聯詞,則統計每一常用字段關鍵詞轉變到有效關聯詞的轉移概率。
5.根據權利要求1所述的簡歷解析方法及系統,其特征在于,所述步驟S8具體包括:
查詢所述有效關鍵詞在所述分類詞典中所屬的類別;
按照所屬的類別對待解析簡歷中的有效關鍵詞增加前綴標注和后綴標注。
6.根據權利要求5所述的簡歷解析方法,其特征在于,所述步驟S9具體包括:
將所述待解析簡歷中當前有效關鍵詞的后綴標注與下一個有效關鍵詞的前綴標注之間或者與所述待解析簡歷的文本結束符之間的文本內容作為當前有效關鍵詞的描述信息;
依次提取每一有效關鍵詞及其對應的描述信息;
將每一有效關鍵詞及其對應的描述信息按照預定格式進行輸出。
7.根據權利要求1、5或6所述的簡歷解析方法,其特征在于,所述預定格式為Json格式。
8.根據權利要求1所述的簡歷解析方法,其特征在于,所述待解析簡歷的文件格式至少包括doc格式、pdf格式或html格式。
9.根據權利要求1所述的簡歷解析方法,其特征在于,所述簡歷樣本的語言為中文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南科技大學,未經西南科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710325550.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能再生血液凈化系統
- 下一篇:AGV自動充電系統





