[發(fā)明專利]基于知識圖譜多視角信息的跨語言實體對齊方法有效
| 申請?zhí)枺?/td> | 202010512003.9 | 申請日: | 2020-06-08 |
| 公開(公告)號: | CN111680488B | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設計)人: | 魯偉明;徐瑋;吳飛;莊越挺 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/189 | 分類號: | G06F40/189;G06F16/36;G06F40/279;G06N3/0464;G06N3/08;G06N3/0442 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 視角 信息 語言 實體 對齊 方法 | ||
本發(fā)明公開了一種基于知識圖譜多視角信息的跨語言實體對齊方法。本發(fā)明首先根據(jù)兩種語言知識圖譜的三元組和實體描述文本,分別抽取信息構建結構圖和文本圖,使用雙層圖卷積網(wǎng)絡編碼實體結構上的向量表示和文本上的向量表示;然后根據(jù)實體描述文本和跨語言語料,使用雙向長短時記憶網(wǎng)絡編碼實體描述上的向量表示;使用加權方式結合三個視角下成對實體的向量距離來計算最終的跨語言對齊實體對。本發(fā)明實現(xiàn)了知識圖譜的跨語言實體對齊,基于結構和文本的多視角信息優(yōu)化實體向量表示,提高了跨語言實體對齊準確率。
技術領域
本發(fā)明涉及一種基于知識圖譜多視角信息的跨語言實體對齊方法,尤其涉及一種利用卷積神經(jīng)網(wǎng)絡基于知識圖譜結構和文本信息來實現(xiàn)跨語言實體對齊的技術。
背景技術
由于互聯(lián)網(wǎng)快速發(fā)展,互聯(lián)網(wǎng)信息爆炸增長,人們需要將信息結構化,以便進一步分析利用,服務于各種任務、場景,由此知識圖譜應運而生。知識圖譜本質上是一種大規(guī)模的語義網(wǎng)絡,是結構化的知識庫,形式化地描述了客觀世界的事物以及它們之間的關系。實體對齊,就是判斷不同名稱的實體或不同來源的實體是否指向真實世界的唯一對象。在多語言知識圖譜中,通常存在一部分跨語言實體鏈接,指示已知的實體對齊,通過這些已知實體對以及跨語言實體對齊技術,可以找出更多的實體對齊關系,豐富知識圖譜的信息,有助于后續(xù)跨語言任務的展開。
針對跨語言實體對齊任務,學術界的傳統(tǒng)方法有基于規(guī)則和相似度計算的方法,和基于機器學習的方法。隨著深度學習的提出以及在自然語言處理領域逐漸發(fā)展深入,基于實體的嵌入表示以及深度神經(jīng)網(wǎng)絡的實體對齊方法成為主流,大多數(shù)方法基于知識圖譜的結構化數(shù)據(jù),通常是屬性三元組和關系三元組的比較、計算,未能有效利用文本信息優(yōu)化實體對齊。
發(fā)明內容
本發(fā)明的目的是利用跨語言知識圖譜的結構化信息和文本信息,從多個視角編碼知識圖譜的實體表示,提高跨語言實體對齊效果。
本發(fā)明的目的是通過以下技術方案實現(xiàn)的:一種基于知識圖譜多視角信息的跨語言實體對齊方法,通過編碼實體結構向量、實體文本向量、實體描述向量,計算實體之間的距離,找到跨語言對齊實體對。該方法包括以下步驟:
1)基于關系三元組的實體結構向量編碼:根據(jù)關系三元組分別為兩個語言的知識圖譜構建結構圖。結構圖以實體為節(jié)點,具有關系的實體之間形成邊,根據(jù)實體之間的關系計算邊的具體權重,形成圖的鄰接矩陣。在構建好的結構圖上,采用雙層圖卷積網(wǎng)絡進行訓練,使用實體本身及其周圍的實體編碼不斷更新當前實體的向量表示。兩個知識圖譜的圖卷積網(wǎng)絡共享權重矩陣。根據(jù)預先對齊的跨語言對齊實體對S,以及正負例實體對三元損失函數(shù),優(yōu)化實體結構向量表示。
2)基于實體描述信息的實體文本向量編碼:將兩個語言的知識圖譜合并,使用實體和描述文本構建統(tǒng)一的文本圖。該文本圖具有兩種類型的節(jié)點:實體節(jié)點和實體描述中的單詞節(jié)點,具有三種類型的邊:“實體-描述詞”邊,單語言內的“描述詞-描述詞”邊,跨語言的“描述詞-描述詞”邊。為每種類型的邊計算權重,形成鄰接矩陣。在構建好的文本圖上,采用雙層圖卷積網(wǎng)絡進行訓練,根據(jù)預先對齊的跨語言對齊實體對S,以及正負例實體對三元損失函數(shù),優(yōu)化實體文本向量表示。
3)基于實體描述信息和跨語言語料的實體描述向量編碼:在兩種語言的單語言語料以及跨語言平行語料上使用Bilbowa預訓練跨語言對齊的單詞向量,然后將每個實體描述的一系列單詞向量作為輸入,用雙向長短時記憶網(wǎng)絡(BiLSTM)對實體描述進行編碼獲得實體描述向量。通過優(yōu)化預先對齊的跨語言對齊實體對S的實體描述向量之間的距離來優(yōu)化網(wǎng)絡結構,得到所有實體最終的描述向量。
4)根據(jù)多視角實體向量計算跨語言對齊實體對:對于一個語言知識圖譜中的每個實體,將另一語言知識圖譜的每個實體作為候選實體,根據(jù)步驟1)步驟2)步驟3)分別得到的實體結構向量、實體文本向量、實體描述向量,計算實體與候選實體之間的距離,對距離從小到大排序,選擇距離最小的實體對作為對齊實體對。
進一步地,所述的步驟1)中,鄰接矩陣A的權重計算和圖卷積網(wǎng)絡中實體向量計算、損失函數(shù)具體如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經(jīng)浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010512003.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





