[發明專利]一種簡歷解析中二次提取實體的方法有效
| 申請號: | 202011125481.0 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112214572B | 公開(公告)日: | 2022-11-01 |
| 發明(設計)人: | 陳其賓;李銳;王建華 | 申請(專利權)人: | 山東浪潮科學研究院有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/295 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜鵬 |
| 地址: | 250100 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 簡歷 解析 二次 提取 實體 方法 | ||
本發明涉及簡歷解析、人工智能和自然語言處理領域,具體提供了一種簡歷解析中二次提取實體的方法,具有如下步驟:S1、實體提取及拆分記錄;S2、拆分片段進行文本預處理;S3、劃分符合條件的潛在實體和待提取字段;S4、采用打分法對符合條件的潛在實體進行打分;S5、選取最高分;S6、最高分與閾值對比,輸出二次提取實體及對應字段。與現有技術相比,本發明的一種簡歷解析中二次提取實體的方法,通過進行二次實體抽取,能夠準確的提取全部實體,能夠有效的解決實體遺漏的問題,具有良好的推廣價值。
技術領域
本發明涉及簡歷解析、人工智能和自然語言處理領域,具體提供一種簡歷解析中二次提取實體的方法。
背景技術
簡歷內容解析是把非結構化的簡歷數據轉化為結構化數據,以便進行簡歷打分、篩選等進一步的分析工作。目前主流的解決方法包括兩個步驟,首先,對簡歷進行分塊,分成個人信息、教育經歷和工作經歷等模塊,其次對每一模塊進行分析,提取目標字段。在提取教育經歷、工作經歷和項目經歷等包含多條記錄的信息時,還需要對其中的每條記錄進行切分,分別提取每條記錄中的信息,如教育信息中每條記錄往往包括學校、專業、起止時間、主修課程、GPA等信息,工作信息中每條記錄往往包括工作單位、部門、崗位、起止時間等信息。
目前主流的提取方法是,先通過規則以及機器學習或深度學習方法識別實體,然后基于識別出的實體對記錄拆分,并將識別出的實體分配到各條拆分的記錄中,每條記錄對應一組實體,如第一條記錄結果為(單位1,部門1,起止時間1),第二條記錄結果為(單位2,部門2,起止時間2)。但是,由于簡歷類型多樣,現有的方法往往不能準確提取全部實體,導致結果中部分實體缺失的問題。
發明內容
本發明是針對上述現有技術的不足,提供一種實用性強的簡歷解析中二次提取實體的方法。
本發明解決其技術問題所采用的技術方案是:
一種簡歷解析中二次提取實體的方法,其特征在于,具有如下步驟:
S1、實體提取及拆分記錄;
S2、拆分片段進行文本預處理;
S3、劃分符合條件的潛在實體和待提取字段;
S4、采用打分法對符合條件的潛在實體進行打分;
S5、選取最高分;
S6、最高分與閾值對比,輸出二次提取實體及對應字段。
進一步的,在步驟S1中,將已提取實體分配到已拆分的各條記錄中,對每條記錄中已提取實體按照位置進行排序,使用已提取實體對所在的記錄進行拆分。
進一步的,在步驟S2中,所在記錄進行拆分后的片段作為潛在實體,對所述潛在實體進行文本預處理。
進一步的,在步驟S3中,文本預處理中,篩選掉格式不符合條件的潛在實體,得到符合條件的潛在實體,將已提取的實體對應的字段定義為已提取字段,將其他字段定義為待提取字段。
作為優選,在步驟S4中,打分法的打分因素包括通用因素和專用因素,
所述通用因素包括潛在實體的位置、字符長度、中文字符和英文字符長度;
所述專用因素包括每個字段特有的因素。
進一步的,在步驟S4中,對符合條件的潛在實體進行打分,包括:
對每個符合條件的潛在實體和每個待提取字段的組合進行打分。
進一步的,在步驟S5中,對于每個符合條件的潛在實體,選擇得分最高的待提取字段作為最優字段;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東浪潮科學研究院有限公司,未經山東浪潮科學研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011125481.0/2.html,轉載請聲明來源鉆瓜專利網。





