[發明專利]一種知識圖譜補全方法、裝置與存儲介質在審
| 申請號: | 201710555399.3 | 申請日: | 2017-07-10 |
| 公開(公告)號: | CN109241290A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 楊燕;歐陽欣;賀樑 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;盛曉穎 |
| 地址: | 200333 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 圖譜 能量函數 信息向量 存儲介質 投影矩陣 語義信息 主題模型 主題信息 新結構 訓練集 向量 模型獲取 模型訓練 生成步驟 重新定義 主題向量 對齊 潛在的 原結構 構建 學習 聯合 | ||
1.一種知識圖譜補全方法,每個所述知識圖譜包括實體以及關系,其特征在于,包括以下步驟:
訓練集獲取步驟,獲取實體描述訓練集,所述實體描述訓練集中包括多個實體以及對所述實體的描述文本,所述描述文本中包括主題;
實體主題向量生成步驟,將實體描述訓練集輸入主題模型中,以獲得實體與主題的實體主題信息向量;
翻譯模型訓練步驟,通過投影矩陣將原翻譯模型獲取的原結構信息向量與實體主題信息向量對齊,以獲取新結構信息向量,通過所述新結構信息向量重新定義翻譯模型的能量函數,以獲得新能量函數,通過所述新能量函數訓練獲得新翻譯模型;
知識圖譜補全步驟,根據缺失實體或是缺失關系的特定知識圖譜,通過新翻譯模型學習出的包括候選實體或候選關系的候選向量輸入所述新能量函數以獲得得分,并將得分最高的候選實體或候選關系作為缺失實體或是缺失關系以補全所述特定知識圖譜。
2.如權利要求1所述的知識圖譜補全方法,其特征在于,
所述實體主題向量生成步驟包括
建立共現頻率矩陣M步驟,建立實體與描述文本的單詞的共現頻率矩陣M;
建立NMF(非負矩陣分解算法)主題模型步驟,使用以下公式建立NMF主題模型:
其中Ve為實體主題向量,Sw為單詞主題向量,m,n分別取自然數;
定義NMF損失函數步驟,使用歐拉距離定義NMF主題模型的NMF損失函數;
計算實體主題向量步驟,通過優化計算所述NMF損失函數,計算出所述實體主題向量。
3.如權利要求1所述的知識圖譜補全方法,其特征在于,
在翻譯模型訓練步驟中,將實體主題向量乘以投影矩陣加上原結構信息向量以獲取新結構信息向量。
4.如權利要求3所述的知識圖譜補全方法,其特征在于,所述知識圖譜的實體包括頭實體以及尾實體,
在翻譯模型訓練步驟中,將頭實體主題向量乘以投影矩陣加上頭實體的原結構信息向量以獲取頭實體的新結構信息向量;
將尾實體主題向量乘以投影矩陣加上尾實體的原結構信息向量以獲取尾實體的新結構信息向量;
將頭實體主題向量與尾實體主題向量的均值作為關系主題向量,將所述關系主題向量乘以投影矩陣加上關系的原結構信息向量以獲取關系的新結構信息向量。
5.如權利要求4所述的知識圖譜補全方法,其特征在于,
在翻譯模型訓練步驟以及知識圖譜補全步驟中,所述新能量函數e⊥(h,r,t)符合以下公式:
其中h⊥為頭實體的新結構信息向量,r⊥為關系的新結構信息向量,t⊥為尾實體的新結構信息向量。
6.如權利要求2所述的知識圖譜補全方法,其特征在于,
定義所述新翻譯模型的hinge-loss損失函數(合頁損失函數),優化計算所述hinge-loss損失函數以及NMF損失函數,以使所述新翻譯模型輸出實體和關系的向量表示。
7.如權利要求6所述的知識圖譜補全方法,其特征在于,
使用Adagrad算法優化計算所述hinge-loss損失函數以及NMF損失函數。
8.一種知識圖譜補全裝置,其特征在于,包括:
存儲單元,用于存儲程序,所述程序被處理單元執行時實現權利要求1至7中任意一項所述知識圖譜補全方法的步驟;
執行單元,用于執行存儲單元中所述程序。
9.一種存儲介質,其特征在于,所述存儲介質存儲程序,當所述程序被讀取時,權利要求1至7中任意一項所述知識圖譜補全方法的步驟被執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710555399.3/1.html,轉載請聲明來源鉆瓜專利網。





