[發(fā)明專利]基于知識圖譜補全的問答方法有效
| 申請?zhí)枺?/td> | 202010937656.1 | 申請日: | 2020-09-07 |
| 公開(公告)號: | CN112015868B | 公開(公告)日: | 2022-08-26 |
| 發(fā)明(設計)人: | 趙芬;李銀國;李俊;王新恒 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京同恒源知識產(chǎn)權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 問答 方法 | ||
1.一種基于知識圖譜補全的問答方法,其特征在于:包括以下步驟:
S1:將輸入的自然語言問題Q劃分為詞或短語;
S2:利用字向量模型BERT將詞表征為向量,得到矩陣作為模型輸入;
S3:利用實體識別技術識別Q中的實體equestion,獲取候選實體集{eKGs};
S4:查詢eKGs的類別c,用c替換Q中的實體equestion,標記為Qc;
S5:構建聲明式查詢cypher,獲取候選三元組集{(ei,rij,ej)},從而獲取到候選關系集{rij};
S6:基于Qc和rij的關系鏈接:計算Qc和rij的余弦相似度,獲取其語義相似度;
S7:在KGs中,如果eKGs和rij之間缺少關系,則執(zhí)行步驟S8,否則執(zhí)行步驟S11;
S8:學習實體eKGs和eKGs鄰域內實體的新的向量表示;
S9:估計中心實體鄰域內實體的重要性;
S10:基于現(xiàn)存的相關的三元組執(zhí)行關系預測;
S11:基于實體和關系的知識圖推理,獲得答案A。
2.根據(jù)權利要求1所述的基于知識圖譜補全的問答方法,其特征在于:在所述步驟S1中,通過HanLP與Stanford parser中的CRF句法分析器與最大熵依存句法分析器將Q劃分為詞或短語。
3.根據(jù)權利要求1所述的基于知識圖譜補全的問答方法,其特征在于:在步驟S3中,具體包括以下步驟:
S31:利用雙向長短期記憶網(wǎng)絡Bi-LSTM模型對問句中每個單詞是否為實體進行預測;
S32:采用前、后向兩個長短期記憶網(wǎng)絡LSTM單元對輸入序列(x1,x2,...,xt-1,xt)進行處理,輸出為兩個LSTM輸出向量的拼接其中,為前向序列的輸出,為后向序列的輸出;
S33:Bi-LSTM層的輸出被送入sigmoid層進行處理,即
輸出層的輸出向量為y=(y1,y2,...,yn),其中n為輸入序列的長度,輸出向量長度與輸入序列是保持一致的,yi對應輸入Q中第i個單詞的標注信息,如果為“1”則表示實體,反之則不是;
S34:使用均方誤差作為損失函數(shù),即
其中,ω為權重,b為偏差,yi為模型的預測值,zi為目標值,λ為控制正規(guī)化的超參數(shù),為L2正規(guī)化。
4.根據(jù)權利要求1所述的基于知識圖譜補全的問答方法,其特征在于:步驟S4中,具體包括:
利用潛在狄利克雷主題模型來概念化Q中的實體,通過結合主題模型潛在狄利克雷分配和一個大規(guī)模概率KGs,捕獲單詞之間的語義關系,開發(fā)一個基于語料庫的上下文相關概念化框架。
5.根據(jù)權利要求1所述的基于知識圖譜補全的問答方法,其特征在于:所述步驟S5中,在識別到Q中實體后,根據(jù)實體名稱在KGs中進行聲明式查詢cypher,查詢到相關三元組{(ei,rij,ej)},從而獲取到候選關系集{rij}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經(jīng)重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010937656.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





