[發(fā)明專利]一種基于Bert的實體鏈接方法在審
| 申請?zhí)枺?/td> | 202011420679.1 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN112560489A | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計)人: | 胡博欽;謝水庚;張晶亮;郝志強;樊濤 | 申請(專利權(quán))人: | 北京航天云路有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/36 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 孫國棟 |
| 地址: | 100144 北京市海淀區(qū)西*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert 實體 鏈接 方法 | ||
本發(fā)明涉及信息檢索的技術(shù)領(lǐng)域,特別是涉及一種基于Bert的實體鏈接方法;包括以下步驟:S1、知識庫包括很多實體,每個實體的信息包括一個唯一的實體id、別名以及實體相關(guān)的屬性和屬性值;S2、數(shù)據(jù)分析和處理;S3、實體識別;S4、實體消歧:實體消歧的實現(xiàn)是基于二分類,訓(xùn)練時選取連接到的實體作為正例,在候選實體里選取兩個負例。
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索的技術(shù)領(lǐng)域,特別是涉及一種基于Bert的實 體鏈接方法。
背景技術(shù)
實體鏈接是將文本中提到的實體與其知識庫中相應(yīng)的實體鏈接 起來的任務(wù),是解決實體間存在的歧義性問題。其潛在的應(yīng)用包括信 息提取、信息檢索和知識庫填充,但由于名稱的變化和實體的模糊性, 此任務(wù)具有挑戰(zhàn)性。實體的歧義性體現(xiàn)在兩個方面,第一,實體可能 存在多詞同義的情況(需鏈接),即一個實體可以用多個實體指稱來表 示,比如麻省理工學(xué)院和MIT都是指美國麻省同一個實體。同時,實 體也有一詞多義的現(xiàn)象(需消歧),即同一個實體指稱可以表示多個實 體,例如蘋果可以是水果也可以是Apple公司。實體鏈接算法需要通 過實體指稱及其上下文的文本信息,借助目標(biāo)知識圖譜,將其鏈接到知識圖譜中正確的映射實體上。
面向中文短的實體鏈接,是NLP領(lǐng)域的基礎(chǔ)任務(wù)之一,即對于給 定的一個中文短文本(如搜索Query、微博、用戶對話內(nèi)容、文章標(biāo) 題等)識別出其中的實體,并與給定知識庫中的對應(yīng)實體進行關(guān)聯(lián)。 ERL整個過程包括實體識別和實體鏈指兩個子任務(wù)。這一問題存在 幾大難點:(1)文本口語化導(dǎo)致實體歧義消解困難;(2)短文本上下 文語境不豐富,須對上下文語境進行精準理解;(3)和英文相比,中 文由于語言自身的特點,在短文本的鏈指問題上更有挑戰(zhàn)。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供一種基于Bert的實體鏈接方 法。
本發(fā)明的一種基于Bert的實體鏈接方法,包括以下步驟:
S1、知識庫包括很多實體,每個實體的信息包括一個唯一的實體 id、別名以及實體相關(guān)的屬性和屬性值;
S2、數(shù)據(jù)分析和處理;
S3、實體識別;
S4、實體消歧:實體消歧的實現(xiàn)是基于二分類,訓(xùn)練時選取連接 到的實體作為正例,在候選實體里選取兩個負例。
本發(fā)明的一種基于Bert的實體鏈接方法,所述步驟S2具體步驟 如下:
S201、數(shù)據(jù)清洗,處理特殊符號、標(biāo)點;
S202、統(tǒng)計短文本長度,統(tǒng)一做歸一化;
S203、構(gòu)造若干字典,包括entity-id(key:實體名字value: kb_id列表),id-entity(key:kb_idvalue:實體名 稱),id-text(key:kb_idvalue:實體描述文本)。
本發(fā)明的一種基于Bert的實體鏈接方法,所述步驟S3包括如下 步驟:
S301、實體正向最大匹配:采用字典樹結(jié)構(gòu)以及正向最大匹配實 體思路,去匹配文本中實體,首先需要的數(shù)據(jù)為S203中的entity_id 字典,將里面的key也就是實體名字插入到字典樹中;
S302、模型:短文本經(jīng)過BERT層,得到BERT的輸出向量,將 BERT的輸出經(jīng)過CRF層,獲得短文本中的候選實體,將短文本中的 候選實體與知識庫中的候選實體相比較,如果前者的完全被后者覆 蓋,則選取后者中的長度最大實體。
本發(fā)明的一種基于Bert的實體鏈接方法,所述步驟S4包括如下 步驟:
實體名字嵌入:將每個實體文本描述輸入到BERT模型,在[CLS] 位置處得到每個實體的輸出向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航天云路有限公司,未經(jīng)北京航天云路有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011420679.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓(xùn)練方法、裝置和計算機設(shè)備
- 融合外部知識的BERT模型的微調(diào)方法、裝置及計算機設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計算機設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法





