[發明專利]一種知識圖譜嵌入模型的訓練方法、系統和電子設備有效
| 申請號: | 202011040457.7 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112182245B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 黃慶明;曹宗勝;許倩倩;楊智勇;操曉春 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 圖譜 嵌入 模型 訓練 方法 系統 電子設備 | ||
1.一種基于知識圖譜嵌入模型的檢索方法,其特征在于,包括:
B1、獲取用戶輸入的兩個檢索元素用于知識檢索,所述兩個檢索元素為實體和關系,或者,實體和實體,
B2、將實體集或者關系集中的各元素分別作為補全元素與所述兩個檢索元素組成不同的三元組,以及將不同的三元組中的實體和關系用訓練得到的實體嵌入和關系嵌入進行表示,得到不同的待驗證三元組,
B3、用所述知識圖譜嵌入模型分別對不同的待驗證三元組進行處理,得到不同的待驗證三元組的嵌入向量,
B4、利用預設的打分函數分別對不同的待驗證三元組的嵌入向量進行打分,得到不同的待驗證三元組的分值,
B5、輸出分值最高的待驗證三元組中的補全元素作為知識檢索的結果;
其中,所述知識圖譜嵌入模型按照以下方式訓練得到:
A1、用對偶四元數構建知識圖譜嵌入模型的嵌入空間,通過對偶四元數將知識圖譜中的關系建模為嵌入空間中的旋轉和平移,
A2、從預設知識圖譜中的正樣本中進行負采樣以生成負樣本,
A3、對正樣本和負樣本進行初始化,得到包含以初始嵌入向量表示的正樣本和負樣本的訓練集,
A4、利用所述訓練集對所述知識圖譜嵌入模型進行迭代訓練至收斂。
2.根據權利要求1所述的方法,其特征在于,步驟A1包括:在嵌入空間中,通過對偶四元數矩陣表示知識圖譜中實體對應的實體嵌入,以及通過對偶四元數矩陣表示知識圖譜中關系對應的關系嵌入。
3.根據權利要求1所述的方法,其特征在于,所述預設知識圖譜包括正樣本,每個正樣本包括頭部實體、關系和尾部實體,所述步驟A2按照以下方式進行負采樣以使負樣本的數量達到所需規模:
A21、從實體集中隨機選擇與正樣本中待替換實體彼此不同的代用實體,所述待替換實體是頭部實體或者尾部實體;
A22、用代用實體替換該正樣本的待替換實體形成一個負樣本。
4.根據權利要求3所述的方法,其特征在于,所述步驟A3包括:
A31、對預設知識圖譜中的各個實體和關系進行初始化,得到歸一化的對偶四元數表示的初始的實體嵌入和關系嵌入;
A32、將正樣本和負樣本中的頭部實體、關系和尾部實體替換對應的初始的實體嵌入和關系嵌入。
5.根據權利要求1所述的方法,其特征在于,所述步驟A4按照以下方式對知識圖譜嵌入模型進行迭代訓練至收斂:
A41、獲取最新的實體嵌入和關系嵌入并對最新的關系嵌入進行單位化,用于最新的實體嵌入和以單位對偶四元數表示的關系嵌入更新正樣本和負樣本中的實體和關系的嵌入向量;
A42、用知識圖譜嵌入模型分別對正樣本和負樣本進行處理,得到正樣本的嵌入向量以及負樣本的嵌入向量;
A43、利用預設的打分函數分別對正樣本和負樣本的嵌入向量進行打分,得到正樣本的分值和負樣本的分值;
A44、利用損失函數根據正樣本的分值和負樣本的分值計算損失值;
A45、根據損失值對知識圖譜嵌入模型中的參數進行調整,更新各個實體嵌入和關系嵌入。
6.根據權利要求5所述的方法,其特征在于,所述打分函數分別用正樣本、負樣本中經過旋轉和平移后的頭實體與尾實體的對偶四元數的內積作為對應正樣本、負樣本的分值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011040457.7/1.html,轉載請聲明來源鉆瓜專利網。





