[發明專利]基于知識圖譜多視角信息的跨語言實體對齊方法有效
| 申請號: | 202010512003.9 | 申請日: | 2020-06-08 |
| 公開(公告)號: | CN111680488B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 魯偉明;徐瑋;吳飛;莊越挺 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/189 | 分類號: | G06F40/189;G06F16/36;G06F40/279;G06N3/0464;G06N3/08;G06N3/0442 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 視角 信息 語言 實體 對齊 方法 | ||
1.一種基于知識圖譜多視角信息的跨語言實體對齊方法,其特征在于,包括以下步驟:
1)基于關系三元組的實體結構向量編碼:根據關系三元組分別為兩個語言的知識圖譜構建結構圖;結構圖以實體為節點,具有關系的實體之間形成邊,根據實體之間的關系計算邊的具體權重,形成圖的鄰接矩陣;在構建好的結構圖上,采用雙層圖卷積網絡進行訓練,使用實體本身及其周圍的實體編碼不斷更新當前實體的向量表示;兩個知識圖譜的圖卷積網絡共享權重矩陣;根據預先對齊的跨語言對齊實體對S,以及正負例實體對三元損失函數,優化實體結構向量表示;
2)基于實體描述信息的實體文本向量編碼:將兩個語言的知識圖譜合并,使用實體和描述文本構建統一的文本圖;該文本圖具有兩種類型的節點:實體節點和實體描述中的單詞節點,具有三種類型的邊:“實體-描述詞”邊,單語言內的“描述詞-描述詞”邊,跨語言的“描述詞-描述詞”邊;為每種類型的邊計算權重,形成鄰接矩陣;在構建好的文本圖上,采用雙層圖卷積網絡進行訓練,根據預先對齊的跨語言對齊實體對S,以及正負例實體對三元損失函數,優化實體文本向量表示;
3)基于實體描述信息和跨語言語料的實體描述向量編碼:在兩種語言的單語言語料以及跨語言平行語料上使用Bilbowa預訓練跨語言對齊的單詞向量,然后將每個實體描述的一系列單詞向量作為輸入,用雙向長短時記憶網絡BiLSTM對實體描述進行編碼獲得實體描述向量;通過優化預先對齊的跨語言對齊實體對S的實體描述向量之間的距離來優化網絡結構,得到所有實體最終的描述向量;
4)根據多視角實體向量計算跨語言對齊實體對:對于一個語言知識圖譜中的每個實體,將另一語言知識圖譜的每個實體作為候選實體,根據步驟1)步驟2)步驟3)分別得到的實體結構向量、實體文本向量、實體描述向量,計算實體與候選實體之間的距離,對距離從小到大排序,選擇距離最小的實體對作為對齊實體對。
2.根據權利要求1所述的一種基于知識圖譜多視角信息的跨語言實體對齊方法,其特征在于,所述的步驟1)中,鄰接矩陣A的權重計算和圖卷積網絡中實體向量計算、損失函數具體如下:
1.1)鄰接矩陣A的權重計算:對于實體ei和ej,它們之間的權重aij∈A計算公式為:
其中fun(r)和ifun(r)分別為關系r正向和逆向的影響分數,G為知識圖譜,#Triples_of_r是關系三元組中關于關系r的三元組數量,#Head_Entities_of_r和#Tail_Entities_of_r分別是關系r的三元組涉及的頭實體數量和尾實體數量;
1.2)圖卷積網絡中實體向量計算:圖卷積網絡的輸入為實體結構特征矩陣由隨機初始化得到,n表示總實體數量,ds表示實體結構特征向量維度;結構圖的圖卷積網絡總體的計算公式為:
其中是在鄰接矩陣A的基礎上加上等維度的單位矩陣,增加當前實體自身的信息,是的對角節點度矩陣;權重矩陣Ws(0)和Ws(1)都是對角矩陣,激活函數σ采用ReLU(·)=max(0,·);
1.3)損失函數:對于實體對p=(e1,e2)∈S的距離作為正例實體對距離,通過隨機替換實體e1或e2構造負例實體對p′=(e′1,e′2)∈Sp′,Sp′為負例實體對集合,然后最小化下列目標函數:
其中fs(p)=||hs(e1),hs(e2)||1是實體距離打分函數,計算實體結構向量之間的曼哈頓距離,hs(e1),hs(e2)分別表示實體e1,e2的結構向量;γs是結構向量之間的間隔約束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010512003.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:對SIM卡初始化的優化
- 下一篇:一種參數可調整的服裝工藝模塊化設計方法





