[發(fā)明專利]一種基于Bert的實體關(guān)系流水線抽取方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011294897.5 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112199519A | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計)人: | 隋娟;汪磊;謝永虎;田玉宇;國強強;趙金奇 | 申請(專利權(quán))人: | 北京觀微科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06F40/295 |
| 代理公司: | 北京慕達星云知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11465 | 代理人: | 符繼超 |
| 地址: | 100094 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert 實體 關(guān)系 流水線 抽取 方法 系統(tǒng) | ||
1.一種基于Bert的實體關(guān)系流水線抽取方法,其特征在于,包括:
對非結(jié)構(gòu)文本段落進行預處理;
基于預先獲得的Bert模型和CRF模型,構(gòu)建命名實體識別模型;
將預處理后的非結(jié)構(gòu)文本段落數(shù)據(jù)輸入所述命名實體識別模型,得到實體識別結(jié)果;
構(gòu)建特定行業(yè)領(lǐng)域知識庫,將所述實體識別結(jié)果按照所述特定行業(yè)領(lǐng)域知識庫內(nèi)的匹配規(guī)則進行關(guān)系匹配,獲得實體關(guān)系三元組。
2.根據(jù)權(quán)利要求1所述的一種基于Bert的實體關(guān)系流水線抽取方法,其特征在于,對非結(jié)構(gòu)文本段落進行預處理的過程,具體包括:
對所述非結(jié)構(gòu)文本段落進行句法分析,補全缺少主語的句子;
建立代詞消歧詞庫,利用正則表達式匹配算法,對所述非結(jié)構(gòu)文本段落內(nèi)的代詞進行替換;
對所述非結(jié)構(gòu)文本段落進行分句,獲得句子集合。
3.根據(jù)權(quán)利要求2所述的一種基于Bert的實體關(guān)系流水線抽取方法,其特征在于,將預處理后的非結(jié)構(gòu)文本段落數(shù)據(jù)輸入所述命名實體識別模型,得到實體識別結(jié)果的過程,具體包括:
對所述句子集合進行字符編碼、位置編碼和句子編碼,并將編碼結(jié)果輸入所述Bert模型,得到高維特征向量;
將所述高維特征向量輸入所述CRF模型,對字符標簽進行結(jié)構(gòu)化預測,獲得標簽序列概率的對數(shù),并輸出得分最高的標簽序列,得到實體識別結(jié)果。
4.根據(jù)權(quán)利要求3所述的一種基于Bert的實體關(guān)系流水線抽取方法,其特征在于,所述標簽序列概率的對數(shù)為:
其中,Yx表示輸出標簽序列的向量空間,p(O,Y)是指對于輸出的標簽序列O,得到預測標簽序列Y的概率,f(O,Y)為得分函數(shù)。
5.根據(jù)權(quán)利要求1所述的一種基于Bert的實體關(guān)系流水線抽取方法,其特征在于,所述實體關(guān)系三元組為(頭實體,關(guān)系,尾實體)。
6.一種基于Bert的實體關(guān)系流水線抽取系統(tǒng),其特征在于,包括:
預處理模塊,用于對非結(jié)構(gòu)文本段落進行預處理;
模型構(gòu)建模塊,用于基于預先獲得的Bert模型和CRF模型,構(gòu)建命名實體識別模型;
實體識別模塊,用于將預處理后的非結(jié)構(gòu)文本段落數(shù)據(jù)輸入所述命名實體識別模型,得到實體識別結(jié)果;
關(guān)系匹配模塊,用于將所述實體識別結(jié)果按照預先構(gòu)建的所述特定行業(yè)領(lǐng)域知識庫內(nèi)的匹配規(guī)則進行關(guān)系匹配,獲得實體關(guān)系三元組。
7.根據(jù)權(quán)利要求6所述的一種基于Bert的實體關(guān)系流水線抽取系統(tǒng),其特征在于,所述預處理模塊包括:
主語補全單元,用于對所述非結(jié)構(gòu)文本段落進行句法分析,補全缺少主語的句子;
代詞消歧單元,用于基于預先建立的代詞消歧詞庫利用正則表達式匹配算法對所述非結(jié)構(gòu)文本段落內(nèi)的代詞進行替換;
分句單元,用于對所述非結(jié)構(gòu)文本段落進行分句,獲得句子集合。
8.根據(jù)權(quán)利要求7所述的一種基于Bert的實體關(guān)系流水線抽取系統(tǒng),其特征在于,所述實體識別模塊包括:
編碼單元,用于對所述句子集合進行字符編碼、位置編碼和句子編碼,并將編碼結(jié)果輸入所述Bert模型,得到高維特征向量;
識別單元,用于將所述高維特征向量輸入所述CRF模型,對字符標簽進行結(jié)構(gòu)化預測,獲得標簽序列概率的對數(shù),并輸出得分最高的標簽序列,得到實體識別結(jié)果。
9.根據(jù)權(quán)利要求6所述的一種基于Bert的實體關(guān)系流水線抽取系統(tǒng),其特征在于,所述實體關(guān)系三元組為(頭實體,關(guān)系,尾實體)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京觀微科技有限公司,未經(jīng)北京觀微科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294897.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓練方法、裝置和計算機設(shè)備
- 融合外部知識的BERT模型的微調(diào)方法、裝置及計算機設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計算機設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法





