[發(fā)明專利]一種多任務的知識圖譜問答方法在審
| 申請?zhí)枺?/td> | 202210660627.4 | 申請日: | 2022-06-13 |
| 公開(公告)號: | CN115292443A | 公開(公告)日: | 2022-11-04 |
| 發(fā)明(設計)人: | 雋兆波;代翔;李春豹;楊露;陳瑩;劉鑫 | 申請(專利權)人: | 中國電子科技集團公司第十研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/36;G06F40/295 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 劉世權 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 任務 知識 圖譜 問答 方法 | ||
1.一種多任務的知識圖譜問答方法,其特征在于,所述方法包括以下步驟:
S1:準備結構化文本數(shù)據(jù),按照實體-關系-實體的三元組形式建立知識圖譜數(shù)據(jù)庫;
S2:基于知識圖譜數(shù)據(jù)庫準備模型需要的訓練語料;
S3:根據(jù)知識圖譜數(shù)據(jù)庫建立相關實體的輔助Elasticsearch數(shù)據(jù)庫;
S4:訓練Bert-BILSTM-CRF命名實體識別模型和Bert語義相似匹配模型;
S5:基于Bert-BILSTM-CRF命名實體識別模型進行問題中實體識別,根據(jù)問題實體在輔助Elasticsearch數(shù)據(jù)庫中進行Es檢索獲取對應實體全稱;
S6:由實體全稱從圖譜數(shù)據(jù)庫中進行精確檢索,獲取對應實體的所有候選關系,再由Bert語義相似匹配模型獲取和問題最為匹配的實體關系;
S7:由獲取的實體、關系根據(jù)定義的路徑規(guī)則進行答案檢索。
2.如權利要求1所述的多任務的知識圖譜問答方法,其特征在于,所述步驟S1具體為:以結構化文本數(shù)據(jù)作為知識圖譜問答的基礎數(shù)據(jù),將結構化文本數(shù)據(jù)之間的關聯(lián)關系按照實體-關系-實體的三元組方式存儲進圖數(shù)據(jù)庫當中,通過關系相互連接構成網(wǎng)狀的知識結構,以獲得知識圖譜數(shù)據(jù)庫。
3.如權利要求1所述的多任務的知識圖譜問答方法,其特征在于,所述步驟S3具體包括:根據(jù)知識圖譜數(shù)據(jù)庫中的實體全稱、實體簡稱和實體別稱構建輔助Elasticsearch數(shù)據(jù)庫。
4.如權利要求1所述的多任務的知識圖譜問答方法,其特征在于,所述步驟S5具體包括:
S51:利用Bert層對原始數(shù)據(jù)進出編碼,得到該序列的編碼向量,利用BILSTM層訓練學習到文本依賴關系和上下文的語義信息,利用CRF層為BILSTM層的輸出增加約束,以對問題中的實體進行識別;
S52:利用相關實體Elasticsearch數(shù)據(jù)庫進行Es檢索,當Es檢索結果閾值大于預設閾值時,則直接輸出對應實體全稱,否則,輸出相關實體名稱供用戶選擇。
5.如權利要求4所述的多任務的知識圖譜問答方法,其特征在于,所述由Bert語義相似匹配模型獲取和問題最為匹配的實體關系,具體為:
S61:將問題P={p1,…,pn}和候選實體關系Q={q1,…,qn}按如下方式拼接作為輸入:
X={[CLS],p1,…,pn,[SEP],q1,…,qn,[SEP]}
S62:利用Bert編碼層對輸入X進行編碼,輸出X對應的編碼向量:
Bert(X)=L={l1,l2,…,lm}
其中L∈Rm*d,m輸入X的長度,li為第i個字符的表示向量;
S63:利用聚合層將Bert輸出的編碼向量和Attention獲取的信息進行連接,輸入至雙向的BILSTM層,最后經(jīng)過池化得到固定長度的向量,并將其轉化為概率值;
S64:設置閾值參數(shù)score,如果大于該閾值則判定該條關系和問題所匹配,基于該模型獲取和輸入問題最為相似的實體關系。
6.如權利要求5所述的多任務的知識圖譜問答方法,其特征在于,所述概率值的表達式為:
P=Softmax[w*r+b]
其中,r為池化后輸出的文本向量,P為預測的相似性概率值,w、r分別為權重參數(shù)和偏置項參數(shù)。
7.如權利要求6所述的多任務的知識圖譜問答方法,其特征在于,所述步驟S6具體為:根據(jù)實體以及關系數(shù)量,分別完成單實體單關系、單實體多關系、雙實體問題的答案檢索;其中:
對于單實體單關系問題,可根據(jù)(entity,relation,answer)形式獲取答案;
對于單實體多關系問題,若為單跳內多關系可根據(jù)(entity,relation,answer)形式獲取答案;若為多跳內多關系,將實體和候選關系進行組合,驗證其是否能滿足查詢路徑(entity,relation1,relation2,answer),滿足則輸出問題答案;
對于雙實體問題,將實體和候選關系進行組合,驗證其是否能滿足查詢路徑(entity1,relation1,answer,relation2,entity2),滿足則輸出問題答案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第十研究所,未經(jīng)中國電子科技集團公司第十研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210660627.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





