[發明專利]一種基于Bert的實體關系流水線抽取方法和系統在審
| 申請號: | 202011294897.5 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112199519A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 隋娟;汪磊;謝永虎;田玉宇;國強強;趙金奇 | 申請(專利權)人: | 北京觀微科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06F40/295 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 符繼超 |
| 地址: | 100094 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 實體 關系 流水線 抽取 方法 系統 | ||
本發明公開了一種基于Bert的實體關系流水線抽取方法和系統,該方法包括:對非結構文本段落進行預處理;基于預先獲得的Bert模型和CRF模型,構建命名實體識別模型;將預處理后的非結構文本段落數據輸入所述命名實體識別模型,得到實體識別結果;構建特定行業領域知識庫,將所述實體識別結果按照所述特定行業領域知識庫內的匹配規則進行關系匹配,獲得實體關系三元組。本發明利用規則匹配的方式,可以快速解決句子級關系抽取時實體重疊的問題,在實現了文本中實體關系自動抽取的同時,保證了抽取結果的精度。
技術領域
本發明涉及知識圖譜和實體關系抽取技術領域,更具體的說是涉及一種基于Bert的實體關系流水線抽取方法和系統。
背景技術
目前,隨著知識圖譜技術的快速發展,實體關系抽取技術也逐步成為近些年該領域的研究熱點,實體關系抽取的精度直接影響知識圖譜領域的構建效果。隨著深度學習技術的發展,基于深度學習的實體關系抽取方法也逐漸成為了當前較為主流的應用方法。隨著知識圖譜和深度學習技術在其他領域泛化應用能力的提升,針對某一特定領域,實現非結構化文本內的實體關系自動抽取對于行業領域知識圖譜的創建也具有重要的支撐作用。
但是,在構建行業領域知識圖譜的時候,例如構建艦船知識圖譜時,一般某些特定關系比較規律,使得實體重疊的現象較為嚴重,例如“同時伯克級為了適應時代發展不斷融合新興技術,伯克級分為FlightⅠ/ⅠA(21艘)、FlightⅡ(7艘)、FlightⅡA(40艘)等多種構型,現役共計68艘,仍在建造,使得伯克級為世界上最新銳,最先進,戰斗力最為全面的驅逐艦,也是世界上建造數量最多的現役驅逐艦”,實體“伯克級”為多個三元組的頭實體,例如(伯克級,構型是,FlightⅠ)、(伯克級,構型是,FlightⅠA)、(伯克級,構型是,FlightⅡ)、(伯克級,構型是,FlightⅡA),而實體重疊的現象會導致實體關系錯分,進而影響知識抽取的精度。
因此,如何提供一種準確可靠的實體關系抽取方法是本領域技術人員亟需解決的問題。
發明內容
有鑒于此,本發明提供了一種基于Bert的實體關系流水線抽取方法和系統,能夠有效解決現有的實體關系抽取過程中實體重疊的問題。
為了實現上述目的,本發明采用如下技術方案:
一方面,本發明提供了一種基于Bert的實體關系流水線抽取方法,該方法包括:
對非結構文本段落進行預處理;
基于預先獲得的Bert模型和CRF模型,構建命名實體識別模型;
將預處理后的非結構文本段落數據輸入所述命名實體識別模型,得到實體識別結果;
構建特定行業領域知識庫,將所述實體識別結果按照所述特定行業領域知識庫內的匹配規則進行關系匹配,獲得實體關系三元組。
進一步地,對非結構文本段落進行預處理的過程,具體包括:
主語補全:利用句法分析的方法,對缺少主語的句子進行補全。
代詞消歧:建立代詞消歧的詞庫,利用正則表達式匹配算法,進行代詞替換,完成代詞消歧的預處理。
分句:按照標點符號“。?!”進行分句,獲得句子集合S,S={s1,s2,s3,…,sn},si表示文本中第i個句子。
進一步地,將預處理后的非結構文本段落數據輸入所述命名實體識別模型,得到實體識別結果的過程,具體包括:
對所述句子集合進行字符編碼、位置編碼和句子編碼,并將編碼結果輸入所述Bert模型,得到高維特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京觀微科技有限公司,未經北京觀微科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294897.5/2.html,轉載請聲明來源鉆瓜專利網。





