[發明專利]一種基于知識圖譜嵌入的鏈接預測方法有效
| 申請號: | 202110686675.6 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113360286B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 黃震;孫鼎;李東升;王藝霖;喬林波;汪昌健;徐皮克;陳易欣 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F40/295 |
| 代理公司: | 湖南企企衛知識產權代理有限公司 43257 | 代理人: | 任合明 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 嵌入 鏈接 預測 方法 | ||
本發明公開了一種基于知識圖譜嵌入的鏈接預測方法,目的是實現大規模知識圖譜的快速鏈接預測。技術方案是先對知識圖譜進行分區;然后構建嵌入模型和由N個服務器和共享文件系統組成知識圖譜鏈接預測系統,訓練時服務器作為主節點和訓練節點,訓練時服務器作為查詢節點和預測節點,主節點安裝有鎖服務器進程,訓練節點安裝有數據加載進程和GPU訓練進程;接著多機并行且CPU、GPU并行對嵌入模型進行分布式訓練;最后N個服務器加載訓練后的嵌入模型,對知識圖譜鏈接進行并行預測;采用本發明既加快了知識圖譜嵌入的訓練和連接預測,又解決了分區造成的嵌入性能下降問題,能夠快速獲得高質量的知識圖譜嵌入。
技術領域
本發明涉及知識圖譜鏈接預測領域,具體涉及一種基于知識圖譜嵌入的鏈接預測的方法。
背景技術
知識圖譜(Knowledge Graph,KG)是真實世界信息的結構化表示,通常表示一個多關系圖,即一個包含多種類型的節點和關系的圖。KG由三個部分組成,實體集E,即現實世界中的事物,如人、地名、概念、藥物、公司等的集合,例如“北京”就是一個實體;關系集R,即實體間的某種聯系,例如“首都”關系表示一個實體是另一個實體的首都;三元組集T,表示事實,即實體間存在某種關系,例如三元組(北京,首都,中國),表示“北京是中國首都”這個事實。
雖然知識圖譜包含大量三元組(事實),但人工輸入所有的三元組是不可能的,因此知識圖譜往往仍然存在著大量三元組缺失的問題。為了解決這個問題,知識圖譜鏈接預測(linkprediction,LK)任務的目標根據已知的鏈接(三元組),自動預測實體之間的丟失鏈接。舉例說明,給定一個缺失三元組(h,r,?)或(?,r,t),問號表示要缺失的實體,對于每一個缺失實體,鏈接預測任務使用所有的知識圖譜中的實體作為候選項對三元組進行補全,然后預測補全后的三元組的有效性。
已有的研究采用知識圖譜嵌入來處理鏈接預測問題。知識圖譜嵌入將知識圖譜中的每個實體和關系表示為低維向量(即嵌入),通過計算向量間的得分函數來判斷三元組的有效性。嵌入模型的參數由實體嵌入向量和關系嵌入向量(或矩陣)組成,每個實體對應一個向量,每個關系對應一個向量(或矩陣)。
鏈接預測一般步驟如下:
1.構建嵌入模型。主要分為三步,表示實體、關系,定義得分函數,定義損失函數;表示實體、關系:嵌入模型的參數由實體嵌入和關系嵌入構成,目前已有的模型中,大多采用向量表示實體,使用向量或矩陣表示關系;得分函數:得分函數f(h,r,t)定義了如何使用實體和關系嵌入計算三元組(h,r,t)得分;損失函數:損失函數定義了使用三元組得分計算在訓練數據集上的優化目標函數。
2.訓練嵌入模型。以知識圖譜中的三元組作為訓練數據,通過梯度反向傳播算法最小化損失函數來優化模型參數,得到嵌入模型;
3.使用嵌入模型進行鏈接預測。對輸入的缺失三元組,使用訓練好的嵌入模型快速預測有效三元組;例如:輸入缺失三元組(h,r,?),以實體集E中所有實體作為候選實體,生成候選三元組{(h,r,t’)|t’∈E},計算所有候選三元組得分函數,以得分最高的三元組作為三元組預測結果,對應的{t’}即缺失實體預測結果。
雖然知識圖譜嵌入是處理鏈接預測問題的有效方法,但是卻很難直接擴展到工業級的知識圖譜上,主要原因是知識圖譜的規模越來越大,例如,臉書的知識圖譜包含0.5億實體,5億三元組;微軟的知識圖譜包含20億實體,550億三元組;谷歌的知識圖譜包含10億實體,700億三元組;百度的知識圖譜包含千億級三元組。大規模知識圖譜的實體數量很大,造成了實體嵌入參數的規模很大,使得使用顯卡對嵌入模型進行訓練時導致顯存不足,且時間過長。
為了解決這兩個問題,Facebook提出的PBG(PytorchBigGraph)采取分區訓練方法,將知識圖譜嵌入模型訓練放到多臺計算機組成的計算集群上同時進行訓練,從而減少對單個訓練設備的顯存要求同時縮短計算時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110686675.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:轉子結構以及具有其的電機
- 下一篇:一種文秘用褶皺文件壓平裝置





