[發明專利]一種用于知識圖譜的實體對齊方法有效
| 申請號: | 201910968049.9 | 申請日: | 2019-10-12 |
| 公開(公告)號: | CN110955780B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 趙翔;曾維新;唐九陽;徐浩;譚真;殷風景;葛斌;肖衛東 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 知識 圖譜 實體 對齊 方法 | ||
1.一種用于知識圖譜的實體對齊方法,其特征在于,包括以下步驟:
步驟1,獲取兩個知識圖譜的數據;
步驟2,利用圖卷積網絡學習實體的結構向量;將實體的名字表示為詞向量;
步驟3,計算實體的結構距離和詞特征距離;
步驟4,并將兩個距離融合綜合距離以表示實體的相似程度;
步驟5,根據相似程度的計算結果進行實體識別對齊,獲得相似實體對;
所述的兩個知識圖譜表示為,G1=(E1,R1,T1)和G2=(E2,R2,T2),其中E代表實體,R代表關系,代表圖譜中的三元組,已知實體對表示為
所述的步驟2中利用兩個兩層圖卷積網絡,分別用來處理兩個知識圖譜數據并生成相應的實體結構向量;
步驟3中兩個知識圖譜的實體e1∈G1和e2∈G2在結構空間下所述的結構距離為Ds(e1,e2)=||e1-e2||l1/ds,ds為結構矩陣維度;
所述的詞特征距離選用實體名的語義相似度,將平均詞向量作為實體名向量,計算實體名向量在文本特征空間下的距離,具體地,所述的詞特征距離為Dt(e1,e2)=||ne(e1)-ne(e2)||l1/dt,假設實體e名字中包含詞語w1,w2,...,wp,那么實體名向量可表示為這些詞向量的平均,即其中
進一步,通過詞移距離模型計算所述的詞特征距離,所述的詞移距離模型用于衡量不同句子間的差異性,詞移距離表示為實體中所有詞的嵌入向量需要移動到達另一個實體中所有詞的嵌入向量的最小距離值;
步驟4中所述的綜合距離的融合公式為:
D(e1,e2)=αDs(e1,e2)+(1-α)Dt(e1,e2)
其中α是用來調整兩種特征權重的超參數。
2.根據權利要求1所述的實體對齊方法,其特征在于,所述的圖卷積網絡,輸入是實體的特征矩陣以及圖的鄰接矩陣A,輸出是融入了結構信息的特征矩陣N代表圖譜中節點的數目,而P和F分別代表輸入和輸出矩陣特征的維度,假設第l層的輸入為節點的特征矩陣其中dl代表第l層特征矩陣的維度,對于第一層,H1=X,d1=P;
第l層輸出為其中I為單位矩陣,為的對角矩陣,為第l層的參數矩陣,dl+1是下一層特征矩陣的維度,激活函數σ常被設為ReLU,對于最后一層,Hl+1=Z,dl+1=F。
3.根據權利要求2所述的實體對齊方法,其特征在于,初始的特征矩陣X從L2正則化的截尾正態分布中抽樣得到,并通過GCN各層訓練更新,進而充分捕捉知識圖譜中的結構信息并生成輸出特征矩陣Z;特征矩陣的維度一直設置為ds,P=F=dl=ds,而兩個GCN在兩層中共享特征矩陣W1和W2。
4.根據權利要求3所述的實體對齊方法,其特征在于,訓練目標為最小化下述損失值:
其中[x]+=max{0,x},代表基于已知實體對(e1,e2),將e1或者e2替換成隨機實體生成的負樣本集合,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910968049.9/1.html,轉載請聲明來源鉆瓜專利網。





