[發明專利]一種基于n-gram模型的簡歷解析方法有效

申請號：	201710325550.4	申請日：	2017-05-10
公開（公告）號：	CN107145584B	公開（公告）日：	2020-06-19
發明（設計）人：	楊春明;張暉;李建飛;李波;趙旭劍	申請（專利權）人：	西南科技大學
主分類號：	G06F16/35	分類號：	G06F16/35;G06Q10/06;G06Q10/10;G06F40/289
代理公司：	成都九鼎天元知識產權代理有限公司 51214	代理人：	胡川
地址：	621000 四川***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 gram 模型簡歷解析方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于n-gram模型的簡歷解析方法，其特征在于，包括：

S1：收集預定數量的簡歷樣本；

S2：統計所述簡歷樣本中的常用字段關鍵詞，并將常用字段關鍵詞按照不同描述類型劃分為不同類別，形成分類詞典；

S3：將所述簡歷樣本中緊鄰每一常用字段關鍵詞之后出現的非關鍵詞記為樣本關聯詞，并采用n-gram模型統計每一常用字段關鍵詞轉變到各樣本關聯詞的轉移概率；

S4：將待解析簡歷的文件格式轉換為純文本格式；

S5：采用最大匹配算法在所述待解析簡歷中查找與分類詞典中的常用字段關鍵詞相匹配的目標關鍵詞；

S6：判斷所述目標關鍵詞對應的轉移概率是否大于預定閾值，如果大于預定閾值，則將目標關鍵詞判定為有效關鍵詞；

S7：將所述待解析簡歷中緊鄰每一有效關鍵詞之后出現的非關鍵詞記為有效關聯詞，并根據所述有效關聯詞更新每一常用字段關鍵詞對應的轉移概率；

S8：利用所述分類詞典對待解析簡歷中的有效關鍵詞增加前綴標注和后綴標注；

S9：根據所述前綴標注和后綴標注對待解析簡歷的文本內容進行分段提取，并將分段提取后的文本內容按照預定格式進行輸出。

2.根據權利要求1所述的簡歷解析方法，其特征在于，所述非關鍵詞為連續兩個字符，所述步驟S3具體為；采用tri-gram模型統計每一常用字段關鍵詞轉變到各樣本關聯詞的轉移概率。

3.根據權利要求1所述的簡歷解析方法，其特征在于，所述步驟S5具體包括：

將所述待解析簡歷的文本內容按照預定長度進行切分，形成待分詞文本；

掃描所述待分詞文本，當掃描到與分類詞典中的常用字段關鍵詞相匹配的第一個字符時，從所述第一個字符開始記錄，直到掃描不到與分類詞典中的常用字段關鍵詞相匹配的字符為止；

將記錄下的所有字符組成目標關鍵詞。

4.根據權利要求1所述的簡歷解析方法，其特征在于，所述根據所述有效關聯詞更新每一常用字段關鍵詞對應的轉移概率的步驟具體為：

判斷所述各樣本關聯詞中是否存在與有效關聯詞相同的樣本關聯詞；

如果存在與有效關聯詞相同的樣本關聯詞，則更新每一常用字段關鍵詞轉變到有效關聯詞的轉移概率；

如果不存在與有效關聯詞相同的樣本關聯詞，則統計每一常用字段關鍵詞轉變到有效關聯詞的轉移概率。

5.根據權利要求1所述的簡歷解析方法及系統，其特征在于，所述步驟S8具體包括：

查詢所述有效關鍵詞在所述分類詞典中所屬的類別；

按照所屬的類別對待解析簡歷中的有效關鍵詞增加前綴標注和后綴標注。

6.根據權利要求5所述的簡歷解析方法，其特征在于，所述步驟S9具體包括：

將所述待解析簡歷中當前有效關鍵詞的后綴標注與下一個有效關鍵詞的前綴標注之間或者與所述待解析簡歷的文本結束符之間的文本內容作為當前有效關鍵詞的描述信息；

依次提取每一有效關鍵詞及其對應的描述信息；

將每一有效關鍵詞及其對應的描述信息按照預定格式進行輸出。

7.根據權利要求1、5或6所述的簡歷解析方法，其特征在于，所述預定格式為Json格式。

8.根據權利要求1所述的簡歷解析方法，其特征在于，所述待解析簡歷的文件格式至少包括doc格式、pdf格式或html格式。

9.根據權利要求1所述的簡歷解析方法，其特征在于，所述簡歷樣本的語言為中文。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于西南科技大學，未經西南科技大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710325550.4/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】