[發(fā)明專利]一種簡歷解析中二次提取實(shí)體的方法有效
| 申請?zhí)枺?/td> | 202011125481.0 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112214572B | 公開(公告)日: | 2022-11-01 |
| 發(fā)明(設(shè)計)人: | 陳其賓;李銳;王建華 | 申請(專利權(quán))人: | 山東浪潮科學(xué)研究院有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/295 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 姜鵬 |
| 地址: | 250100 山東省濟(jì)*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 簡歷 解析 二次 提取 實(shí)體 方法 | ||
1.一種簡歷解析中二次提取實(shí)體的方法,其特征在于,具有如下步驟:
S1、實(shí)體提取及拆分記錄;
將已提取實(shí)體分配到已拆分的各條記錄中,對每條記錄中已提取實(shí)體按照位置進(jìn)行排序,使用已提取實(shí)體對所在的記錄進(jìn)行拆分;
S2、拆分片段進(jìn)行文本預(yù)處理;
所在記錄進(jìn)行拆分后的片段作為潛在實(shí)體,對所述潛在實(shí)體進(jìn)行文本預(yù)處理;
S3、劃分符合條件的潛在實(shí)體和待提取字段;
文本預(yù)處理中,篩選掉格式不符合條件的潛在實(shí)體,得到符合條件的潛在實(shí)體,將已提取的實(shí)體對應(yīng)的字段定義為已提取字段,將其他字段定義為待提取字段;
S4、采用打分法對符合條件的潛在實(shí)體進(jìn)行打分;
打分法的打分因素包括通用因素和專用因素,
所述通用因素包括潛在實(shí)體的位置、中文字符和英文字符長度;
所述專用因素包括每個字段特有的因素;
對符合條件的潛在實(shí)體進(jìn)行打分,包括:
對每個符合條件的潛在實(shí)體和每個待提取字段的組合進(jìn)行打分;
S5、選取最高分;
對于每個符合條件的潛在實(shí)體,選擇得分最高的待提取字段作為最優(yōu)字段;
對于一個待提取字段是多個符合條件的潛在實(shí)體最優(yōu)字段的情況,選擇得分最高的符合條件的潛在實(shí)體,這個符合條件的潛在實(shí)體作為該待提取字段對應(yīng)的符合條件的潛在實(shí)體;
S6、最高分與閾值對比,輸出二次提取實(shí)體及對應(yīng)字段;
選擇得分高于閾值的待提取字段和符合條件的潛在實(shí)體的組合,將所述符合條件的潛在實(shí)體加入已提取實(shí)體中,將所述待提取字段加入已提取字段中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東浪潮科學(xué)研究院有限公司,未經(jīng)山東浪潮科學(xué)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011125481.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





