[發(fā)明專利]一種結(jié)合圖注意力和屬性聚類的實體對齊方法有效
| 申請?zhí)枺?/td> | 202110777340.5 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113505239B | 公開(公告)日: | 2022-10-28 |
| 發(fā)明(設(shè)計)人: | 包鐵;朱蓓蓓;彭濤 | 申請(專利權(quán))人: | 吉林大學(xué) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京慕達星云知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11465 | 代理人: | 符繼超 |
| 地址: | 130000 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 注意力 屬性 實體 對齊 方法 | ||
1.一種結(jié)合圖注意力和屬性聚類的實體對齊方法,其特征在于,包括:
S1:將兩個知識圖譜的實體,輸入到結(jié)合圖注意力和密集連接的圖卷積網(wǎng)絡(luò),得到實體嵌入表示;
S2:基于所述實體嵌入表示,計算所述實體嵌入表示中實體間的相似性,得到序列s;
S3:使用k-prototype聚類方法對實體的屬性進行混合聚類,并計算簇間的相異性,得到實體間的相異性;
S4:根據(jù)預(yù)設(shè)閾值,利用所述實體間的相異性對所述序列s進行排序,得到候選集;
S5:利用所述候選集過濾弱相關(guān)的實體,得到等價實體;
所述S1,包括:
S11:將第一知識圖譜、第二知識圖譜和種子集合輸入;
S12:將所述第一知識圖譜和所述第二知識圖譜的實體輸入卷積網(wǎng)絡(luò)進行編碼;
S13:利用所述種子集合將編碼后的所述第一知識圖譜和所述第二知識圖譜連接;
S14:將連接后的所述第一知識圖譜和所述第二知識圖譜,嵌入到相同的向量空間,得到初始化鄰接矩陣A;
S15:將所述初始化鄰接矩陣A輸入到改進的圖卷積網(wǎng)絡(luò);
S16:對所述初始化鄰接矩陣A應(yīng)用N頭注意力,并對所述初始化鄰接矩陣A進行加權(quán),得到N個對應(yīng)的鄰接矩陣所述N表示預(yù)設(shè)參數(shù);所述鄰接矩陣表示類型t相關(guān)的鄰接矩陣;
S17:將每個所述鄰接矩陣分別輸入到對應(yīng)的密集連接層,得到第l層的實體嵌入表示;
所述第l層的實體嵌入表示,計算公式為:
公式(1),其中,n表示所述第一知識圖譜和所述第二知識圖譜中任一知識圖譜中實體的個數(shù);i和j均表示所述任一知識圖譜中實體的編號;i和j表示不同實體的編號;所述鄰接矩陣和所述初始化鄰接矩陣A值的大小相同;表示所述鄰接矩陣中實體編號i和實體編號j對應(yīng)的元素值;W(l)表示可訓(xùn)練的權(quán)重矩陣;g(l)表示初始節(jié)點和前l(fā)層所有的輸出節(jié)點表示的拼接;b(l)表示偏置向量;表示類型為t的鄰接實體在所述結(jié)合圖注意力和密集連接的圖卷積網(wǎng)絡(luò)第l層的實體嵌入向量矩陣。
2.根據(jù)權(quán)利要求1所述的一種結(jié)合圖注意力和屬性聚類的實體對齊方法,其特征在于:所述步驟S2中的相似性,使用余弦相似度計算,計算公式為:
公式(2)中,h(er)表示所述第一知識圖譜的實體嵌入;h(es)表示所述第二知識圖譜的實體嵌入;er表示所述第一知識圖譜中的實體,r表示所述第一知識圖譜中實體的編號;es表示所述第二知識圖譜中的實體,s表示所述第二知識圖譜中實體的編號;D(er,es)表示兩個實體在向量空間的距離。
3.根據(jù)權(quán)利要求1所述的一種結(jié)合圖注意力和屬性聚類的實體對齊方法,其特征在于:所述步驟S3中的相異性,計算公式為:
公式(3)中,yil表示分割矩陣中的元素;d(xi,Ql)表示數(shù)據(jù)和聚類簇的相異性;Ql表示簇的原型;E表示兩個實體的相異性;k表示簇原型的個數(shù);xi表示所述任一知識圖譜中的實體。
4.根據(jù)權(quán)利要求3所述的一種結(jié)合圖注意力和屬性聚類的實體對齊方法,其特征在于:還包括,使用損失函數(shù)訓(xùn)練所述結(jié)合圖注意力和密集連接的圖卷積網(wǎng)絡(luò);所述損失函數(shù)的表達式為:
Loss=∑(a,b)∈L∑(a',b')∈L'max{0,D(a,b)-D(a',b')+γ} (4)
公式(4)中,γ0表示邊緣的超參數(shù);L'表示L的負例集合;所述L表示正例集合;Loss表示所述結(jié)合圖注意力和密集連接的圖卷積網(wǎng)絡(luò)的損失函數(shù);D(·)與所述公式(2)中的D(·)相同。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110777340.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





