[發明專利]一種基于主題關鍵詞過濾的知識圖譜補全方法在審
| 申請號: | 201910245584.1 | 申請日: | 2019-03-28 |
| 公開(公告)號: | CN109977234A | 公開(公告)日: | 2019-07-05 |
| 發明(設計)人: | 印桂生;張載熙;王紅濱 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 劉冰 |
| 地址: | 150001 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主題關鍵詞 圖譜 過濾 描述文本 冗余 注意力機制 反應實體 描述信息 評分函數 文本過濾 文本內容 語義空間 語義聯系 噪音信息 可用性 語義 三元組 集合 | ||
1.一種基于主題關鍵詞過濾的知識圖譜補全方法,其特征在于:所述方法包括以下步驟:
步驟1:設定知識圖譜G=(E,R,T);其中,E表示知識圖譜實體集合,R表示知識圖譜中關系集合,T表示待補全的三元組集合,
步驟2:將知識圖譜G中不完整的三元組元素構成的集合設定為補全任務集合H,H中的元素分為(h,r,?)和(h,?,t)兩種形式;其中,頭實體h∈E,關系r∈R,尾實體t∈E;
步驟3:使用詞向量工具對待補全的三元組集合T中的h和r進行訓練,針對(h,r,?)任務得到h′和r′,針對(h,?,t)任務得到h′和t′;
步驟4:使用詞向量工具對三元組集合T中實體的實體描述進行處理,得到主題計算詞向量矩陣,包括:頭實體描述的詞向量矩陣De和尾實體描述的詞向量矩陣Dt;
步驟5:通過NMF模型分別對頭實體h和尾實體t的實體描述進行處理,獲取頭實體和尾實體的主題向量sh和st;
步驟6:利用步驟5獲取的主題向量sh和st來計算主題語義空間s(sh,st):
其中,向量s為主題語義空間的法向量;
步驟7:獲取主題計算詞向量矩陣De和Dt的注意力分數,再根據注意力分數選取主題詞;并對詞向量矩陣De和Dt進行注意力分數的賦值;其中,獲取注意力分數的公式為:
式中,表示行乘,表現對實體描述D的詞向量矩陣的每一行乘以注意力分數;ai表示實體描述中的第i個單詞的注意力分數;
步驟8:使用卷積神經網絡對步驟7計算得到的注意力分數矩陣attention(D)抽取特征向量;
步驟9:定義損失函數E(h,r,t)以及目標函數l;其中:
損失函數為:E(h,r,t)=E′s+E′d+Es+Ed;
e=h+r-t;L1和L2都表示范數,L1/L2表示L1或L2的關系;且
Ed表示ed表示所具有的能量,ed=hd+r-td,hd是頭實體h實體描述的特征向量,td是尾實體t實體描述的特征向量,由步驟8經卷積神經網絡抽取得到
sT表示s的轉置;
目標函數為:l=lembed+μltopic;且
S′={(h′,r,t)}∪{(h,r′,t)}∪{(h,r,t′)}
其中,lembed表示考慮詞向量的目標函數;ltopic表示考慮主題的目標函數;μ表示超參數,根據訓練結果確定;S表示正確三元組的集合;S′表示通過負采用得到的錯誤三元組的集合;通過隨機地替換正確三元組中的實體和關系構成錯誤的三元組集合;
max(0,γ+E(h,r,t)-E(h′,r′,t′))表示返回兩個量中的較大值;γ為超參數,表示正確三元組得分與錯誤三元組得分之間的間隔距離;
且ltopic的定義如下:
式中,E表示實體集,De表示實體e的實體描述所構成的單詞集,ce,ω表示單詞w出現在實體e的描述的出現次數;se表示實體e的描述文本的主題向量;θ表示單詞w的主題分布;整個訓練過程使用隨機梯度下降法進行訓練;
步驟10:將E或R中全部元素作為缺失實體或關系的候選集合,通過負采樣學習錯誤的三元組集合T′;
步驟11:針對H中的每一個元素,將步驟8得到的正確三元組和步驟10得到的錯誤三元組輸入到損失函數,計算相應的得分;
步驟12:通過訓練以調整參數,優化目標函數l以使目標函數值達最小;
步驟13:根據步驟9計算所得的得分對候選實體集合排序并輸出選列表;
重復步驟9~步驟11,直到得到輸出結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910245584.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種成語知識圖譜構建方法及裝置
- 下一篇:一種觸發詞的確定方法和裝置





