[發明專利]一種基于n-gram模型的簡歷解析方法有效
| 申請號: | 201710325550.4 | 申請日: | 2017-05-10 |
| 公開(公告)號: | CN107145584B | 公開(公告)日: | 2020-06-19 |
| 發明(設計)人: | 楊春明;張暉;李建飛;李波;趙旭劍 | 申請(專利權)人: | 西南科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q10/06;G06Q10/10;G06F40/289 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 胡川 |
| 地址: | 621000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 gram 模型 簡歷 解析 方法 | ||
本發明公開了一種基于n?gram模型的簡歷解析方法,該方法為:預先收集簡歷樣本,將常用字段關鍵詞劃分為不同類別形成分類詞典,采用n?gram模型統計出每一常用字段關鍵詞轉變到各樣本關聯詞的轉移概率,查找待解析簡歷中與常用字段關鍵詞相匹配的目標關鍵詞,如果目標關鍵詞對應的轉移概率大于預定閾值,根據目標關鍵詞更新每一常用字段關鍵詞對應的轉移概率,并對待解析簡歷中的有效關鍵詞增加前綴標注和后綴標注,對待解析簡歷的文本內容進行分段提取并輸出。本發明能夠基于n?gram模型與詞典分段技術進行自動化的簡歷解析,能夠提高信息抽取準確率并支持不同文件格式,可為招聘網站、公司HR部門提供豐富的人才資源庫。
技術領域
本發明涉及計算機科學技術領域,特別是涉及一種基于n-gram模型的簡歷解析方法。
背景技術
隨著互聯網技術的迅速發展,網絡中容納了海量的、類型各異的原始數據信息。在日常生活中,簡歷是一類十分常見而又重要的文本,它包含了作者的基本情況、工作經驗等信息。因此,如何從海量的簡歷中自動、迅速、準確地抽取有用的信息,成為各大招聘網站、公司和企業的HR部門迫切需求。
簡歷解析本質上是文本信息抽取的應用體現。目前的文本信息抽取模型主要有3種:基于詞典的抽取模型、基于規則的抽取模型和基于隱馬爾可夫模型的抽取模型。
現有的應用上述3種文本信息抽取模型的簡歷解析方案多采用簡單的關鍵字匹配方法,對自由格式的文本適應性弱、信息抽取準確率低,只能處理特定格式的簡歷。
發明內容
本發明主要解決的技術問題是提供一種基于n-gram模型的簡歷解析方法,能夠提高信息抽取準確率并支持不同文件格式。
為解決上述技術問題,本發明采用的一個技術方案是:提供一種基于n-gram模型的簡歷解析方法,包括:S1:收集預定數量的簡歷樣本;S2:統計所述簡歷樣本中的常用字段關鍵詞,并將常用字段關鍵詞按照不同描述類型劃分為不同類別,形成分類詞典;S3:將所述簡歷樣本中緊鄰每一常用字段關鍵詞之后出現的非關鍵詞記為樣本關聯詞,并采用n-gram模型統計每一常用字段關鍵詞轉變到各樣本關聯詞的轉移概率;S4:將待解析簡歷的文件格式轉換為純文本格式;S5:采用最大匹配算法在所述待解析簡歷中查找與分類詞典中的常用字段關鍵詞相匹配的目標關鍵詞;S6:判斷所述目標關鍵詞對應的轉移概率是否大于預定閾值,如果大于預定閾值,則將目標關鍵詞判定為有效關鍵詞;S7:將所述待解析簡歷中緊鄰每一有效關鍵詞之后出現的非關鍵詞記為有效關聯詞,并根據所述有效關聯詞更新每一常用字段關鍵詞對應的轉移概率;S8:利用所述分類詞典對待解析簡歷中的有效關鍵詞增加前綴標注和后綴標注;S9:根據所述前綴標注和后綴標注對待解析簡歷的文本內容進行分段提取,并將分段提取后的文本內容按照預定格式進行輸出。
優選的,所述非關鍵詞為連續兩個字符,所述步驟S3具體為;采用tri-gram模型統計每一常用字段關鍵詞轉變到各樣本關聯詞的轉移概率。
優選的,所述步驟S5具體包括:將所述待解析簡歷的文本內容按照預定長度進行切分,形成待分詞文本;掃描所述待分詞文本,當掃描到與分類詞典中的常用字段關鍵詞相匹配的第一個字符時,從所述第一個字符開始記錄,直到掃描不到與分類詞典中的常用字段關鍵詞相匹配的字符為止;將記錄下的所有字符組成目標關鍵詞。
優選的,所述根據所述有效關聯詞更新每一常用字段關鍵詞對應的轉移概率的步驟具體為:判斷所述各樣本關聯詞中是否存在與有效關聯詞相同的樣本關聯詞;如果存在與有效關聯詞相同的樣本關聯詞,則更新每一常用字段關鍵詞轉變到有效關聯詞的轉移概率;如果不存在與有效關聯詞相同的樣本關聯詞,則統計每一常用字段關鍵詞轉變到有效關聯詞的轉移概率。
優選的,所述步驟S8具體包括:查詢所述有效關鍵詞在所述分類詞典中所屬的類別;按照所屬的類別對待解析簡歷中的有效關鍵詞增加前綴標注和后綴標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南科技大學,未經西南科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710325550.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能再生血液凈化系統
- 下一篇:AGV自動充電系統





