[發(fā)明專利]一種基于機器學習和模糊規(guī)則的集成簡歷信息抽取方法在審
| 申請?zhí)枺?/td> | 201911217801.2 | 申請日: | 2019-12-03 |
| 公開(公告)號: | CN110941703A | 公開(公告)日: | 2020-03-31 |
| 發(fā)明(設計)人: | 宋萬軍;郭曉杰;王崢;李曙光;王黎黎;高永偉;陳白雪;姜廣棟;楊萬剛;李峰 | 申請(專利權)人: | 南京烽火星空通信發(fā)展有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/383;G06F40/216;G06F40/289;G06N7/02;G06N20/00;G06Q10/10 |
| 代理公司: | 南京經(jīng)緯專利商標代理有限公司 32200 | 代理人: | 曹佩佩 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 模糊 規(guī)則 集成 簡歷 信息 抽取 方法 | ||
本發(fā)明公開了一種基于機器學習和模糊規(guī)則的集成簡歷信息抽取方法,包括:抽取簡歷、疑似簡歷和非簡歷文本的特征,通過特征信息,篩選簡歷文本;對篩選得到的簡歷文本進行詞頻統(tǒng)計,獲取常用關鍵詞并生成模糊匹配規(guī)則;使用模糊匹配規(guī)則對簡歷文本進行切分,并抽樣檢查分塊結果,驗證分塊的正確率;針對簡歷文本切分后各個分塊的數(shù)據(jù)分布特征,采用模糊匹配規(guī)則、序列標注或者分類的方法抽取簡歷文本具體的信息;使用訂正策略對不合理的結果進行訂正并輸出結構化的簡歷信息。本發(fā)明有效的解決容了簡歷信息抽取過程易受無效信息干擾、分詞粒度過小和實體指代不明的問題。
技術領域
本發(fā)明公開了一種基于機器學習和模糊規(guī)則的集成簡歷信息抽取方法,涉及自然語言處理中的信息抽取技術領域。
背景技術
在現(xiàn)有技術中,目前簡歷信息抽取技術常見的包括以下三種方法:1、使用統(tǒng)計分析和規(guī)則匹配抽取簡歷信息;2、使用機器學習算法抽取簡歷信息;3、使用規(guī)則和機器學習的組合的方法抽取信息。
方法1屬于傳統(tǒng)的抽取方法。首先統(tǒng)計出詞頻較高的標題詞,如:姓名、電話、畢業(yè)院校、公司名稱等。然后針對統(tǒng)計出的高頻詞或者期望提取的詞,制定提取規(guī)則,實現(xiàn)信息的抽取。該方法雖然抽取的信息較準確,但能抽取的信息有限,規(guī)則不能覆蓋到的數(shù)據(jù)將會丟失。
方法2通過將信息抽取問題抽象為序列標注問題,使用隱馬爾可夫鏈(HMM)、條件隨機場(CRF)、長短期記憶網(wǎng)絡(LSTM)以及深度學習的方法抽取信息。該方法對規(guī)整的文本,抽取的效果較為明顯。但簡歷數(shù)據(jù)格式繁雜,如:doc、docx、html、pdf等,將簡歷轉換成凈文本格式后,文本中可能含有錯行、無效換行、無效字符等情況,此時單純的使用機器學習方法抽取的效果較差。
方法3將規(guī)則匹配和機器學習方法組合起來抽取信息。該方法首先使用規(guī)則對固定格式的數(shù)據(jù)進行抽取,如:手機號、郵箱、生日、工作年限等,然后通過機器學習的方法抽取其它信息,如:個人其它基本信息、工作教育信息等。該方法是目前簡歷信息抽取的主流方法。但仍然存在容易受無效信息干擾、實體指代不明以及分詞粒度過小的問題。無法規(guī)避非簡歷信息的干擾;簡歷中出現(xiàn)多個姓名時,無法確定簡歷作者本人的姓名;工作經(jīng)歷和教育經(jīng)歷中都出現(xiàn)學校名稱時,無法區(qū)分該名稱是工作單位還是學習學校;對于時間段
1988.06-1982.09,無法區(qū)分是學習時間段還是工作時間段等等。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是:針對現(xiàn)有技術的缺陷,提供一種基于機器學習和模糊規(guī)則的集成簡歷信息抽取方法,
本發(fā)明為解決上述技術問題采用以下技術方案:
一種基于機器學習和模糊規(guī)則的集成簡歷信息抽取方法,所述方法包括如下步驟:
步驟一、抽取簡歷、疑似簡歷和非簡歷文本的特征,通過特征信息,篩選簡歷文本;
步驟二、對篩選得到的簡歷文本進行詞頻統(tǒng)計,獲取常用關鍵詞并生成模糊匹配規(guī)則;
步驟三、使用模糊匹配規(guī)則對簡歷文本進行切分,并抽樣檢查分塊結果,驗證分塊的正確率;
步驟四、針對簡歷文本切分后各個分塊的數(shù)據(jù)分布特征,采用模糊匹配規(guī)則、序列標注或者分類的方法抽取簡歷文本具體的信息;
步驟五、使用訂正策略對不合理的結果進行訂正并輸出結構化的簡歷信息。
作為本發(fā)明的進一步優(yōu)選方案,所述步驟一的方法具體包括:
101、標注簡歷、疑似簡歷以及非簡歷樣本;
102、使用特征抽取器抽取上述3類樣本的特征,并訓練分類模型;
103、輸入文本到模型,輸出簡歷、疑似簡歷、非簡歷三者之一。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發(fā)展有限公司,未經(jīng)南京烽火星空通信發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911217801.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:光電裝置散熱器
- 下一篇:一種家具用板料仿人工打磨裝置





