[發明專利]面向多源知識圖譜融合的實體對齊方法、裝置與系統在審
| 申請號: | 202110726190.5 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113641826A | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 鄂海紅;林學淵;宋文宇;宋美娜 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張夢瑤 |
| 地址: | 100876 北京市海淀區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 知識 圖譜 融合 實體 對齊 方法 裝置 系統 | ||
1.一種面向多源知識圖譜融合的實體對齊方法,其特征在于,包括:
提取知識圖譜中實體的實體特征,根據所述實體的實體特征生成實體嵌入矩陣,并根據所述實體嵌入矩陣獲取所述知識圖譜的實體表示;
根據所述實體表示計算所述實體與所述相鄰實體的關系信息,并根據所述關系信息增強所述實體表示,以得到所述知識圖譜的完整實體表示;
根據所述完整實體表示獲取完整實體嵌入矩陣,根據所述完整實體嵌入矩陣獲取最終實體嵌入矩陣;
根據所述最終實體嵌入矩陣和數據集計算損失函數;
根據所述損失函數和實體的屬性信息,采用雙向全局過濾策略生成樣本集,并根據所述樣本集對神經網絡模型進行迭代訓練,使得訓練后的神網絡模型具有對齊和融合多個知識圖譜的能力,其中,所述樣本集包括迭代正樣本集和迭代負樣本集。
2.如權利要求1所述的面向多源知識圖譜融合的實體對齊方法,其特征在于,還包括:
dropout網絡和跨層highway網絡;
其中,使用highway網絡混合兩種不同的實體嵌入矩陣,其中,
α=sigmoid(X(a)W+b),
X(out)=(1-α)X(a)+αX(b),
其中,X(a),X(b)是兩個實體嵌入矩陣,X(out)是highway網絡的輸出,W和b分別是線性層的權重矩陣的偏置矢量,α是門控權重向量;
將所述highway網絡的輸出X(out)輸入dropout網絡,以得到混合特征,將所述混合特征輸入到圖注意力網絡GAT,所述圖注意力網絡GAT輸出為:
其中,是第l層GAT輸出的實體ei的嵌入表示,是第l-1層GAT輸出的實體ej′的嵌入表示,αij表示實體ei的相鄰實體的注意力權重,a是可訓練的參數向量,維數為2de×1,aT表示參數向量的轉置,[*||*]表示拼接運算,exp(x)=ex,LeakyReLU是激活函數,LeakyReLU(x)=max(x,0)+0.01*min(x,0),Ni表示實體ei的所有相鄰實體組成的集合。
3.如權利要求2所述的面向多源知識圖譜融合的實體對齊方法,其特征在于,根據所述實體表示計算所述實體與所述相鄰實體的關系信息,并根據所述關系信息增強所述實體表示,以得到所述知識圖譜的完整實體表示,包括:
將每個關系rk的語義分為兩部分,與頭實體相關的部分和與尾實體相關的部分每個實體x的表示可以拆分為xh=x(PAN)Wh和xt=x(PAN)Wt,其中Wh,是權重矩陣,dr是關系嵌入維數,x(PAN)是來自原始聚合層輸出的嵌入矩陣X(PAN)的實體嵌入;
采用所述圖注意力網絡GAT將實體信息傳播到關系,
其中,是基于關系頭語義的實體ei作為頭實體的部分表示,是與頭實體ei相關的關系列表,αik表示關系rk關于頭實體ei的注意力權重;
從計算出和從計算出
使用所述Highway網絡自動平衡和中的信息,并通過拼接獲得ei的完整實體表示
4.如權利要求3所述的面向多源知識圖譜融合的實體對齊方法,其特征在于,根據所述完整實體表示獲取完整實體嵌入矩陣,根據所述完整實體嵌入矩陣獲取最終實體嵌入矩陣,包括:
使用回響網絡輸出所述完整實體對應的完整實體嵌入矩陣X(EN),并輸出所述最終實體嵌入矩陣
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110726190.5/1.html,轉載請聲明來源鉆瓜專利網。





