[發明專利]基于翻譯模型的協同迭代聯合實體對齊方法及裝置在審
| 申請號: | 201910380017.7 | 申請日: | 2019-05-08 |
| 公開(公告)號: | CN110188206A | 公開(公告)日: | 2019-08-30 |
| 發明(設計)人: | 鄂海紅;宋美娜;程瑞;牛佩晴;陳忠富 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 100876 北京市海淀區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對齊 三元組 圖譜 迭代 聯合 嵌入空間 嵌入模塊 預設距離 協同 數據預處理模塊 迭代訓練 方法生成 模塊選取 頻率選擇 語言知識 語義距離 翻譯 異質 預設 融合 更新 統計 | ||
本發明公開了一種基于翻譯模型的協同迭代聯合實體對齊方法及裝置,該方法包括:通過數據預處理模塊處理多個知識圖譜,統計多個知識圖譜中的實體、關系、屬性、屬性值、關系三元組和屬性三元組各個數據,根據預設的頻率選擇方法生成實體對齊種子集;通過關系三元組聯合嵌入模塊生成關系三元組聯合嵌入空間;通過屬性三元組聯合嵌入模塊生成屬性三元組聯合嵌入空間;通過協同迭代訓練模塊選取語義距離最小的一對實體組成實體對,將滿足預設距離閾值的實體對添加到實體對齊種子集對實體對齊種子集進行更新;迭代直至不存在滿足預設距離閾值的實體對。該方法可以解決多個知識圖譜共同融合的問題和結構異質的知識圖譜、跨語言知識圖譜實體對齊問題。
技術領域
本發明涉及數據處理技術領域,特別涉及一種基于翻譯模型的協同迭代聯合實體對齊方法及裝置。
背景技術
大規模知識圖譜作為支持各種復雜應用程序的數據基礎變得越來越重要,在搜索、分析、推理、推薦、決策和問答等方面具有重要的應用,被廣泛應用于搜索引擎、智能助理、翻譯系統、問答系統和情報分析等應用中,涵蓋了金融、教育、醫療、交通、商業、文娛、政務和安防等領域。在這個背景下,知識圖譜的正確性和完備性就顯得尤為重要。但由于不同知識圖譜中知識來源的多樣性和知識結構的異構性,已有的知識圖譜往往存在著以下問題:(1)不同知識圖譜間存在很多知識重復或補充;(2)單一知識圖譜的知識質量低、信息覆蓋度低、知識描述不完全;不同知識圖譜間的知識異構性又強,不利于數據的共享和集成;(3)很多領域知識圖譜只是針對領域內的某一小類而建立的,無法支撐上層應用系統。如醫療領域內,很多醫療知識圖譜只是針對于某一類疾病、某一科室而建立的,缺乏完整的醫療全科知識圖譜來服務于醫療智能系統。故如何融合不同知識圖譜中的知識,形成完備性和正確性都有保障的知識圖譜,是以知識圖譜為數據基礎的上層應用的迫切需求。其中,實體對齊技術是首要的關鍵技術。
已有的實體對齊模型,在兩個知識圖譜KG1和KG2之間使用迭代的方法進行實體對齊;首先根據輸入的對齊種子實體對集合對KG1和KG2中表示相同含義的實體向量表示進行鏈接,形成新的對齊知識圖譜KG3;之后根據KG3中新的對齊實體對KG1和KG2中的實體向量表示進行更新,以進一步獲得更多的對齊實體,從而形成迭代機制;并制定閾值對實體對間的向量表示距離進行判定,小于閾值則認為是對齊實體對,將其加入KG3中,直到KG3中不再增加實體,則KG1和KG2之間的實體對齊任務完成。
另外,已有的實體是對齊方法,用于提高基于向量空間表示的實體對齊效率。該方法首先讀取訓練模型、實體向量和關系向量;針對給定的一個實體及對應關系,根據訓練模型構造候選實體關系對集合;根據打分函數對所有候選實體關系對中的實體的向量和關系的向量進行打分,取打分值最高的候選實體關系對中的候選實體作為對齊的目標實體,其中,打分函數中包括給定實體的向量與候選實體的向量之間的屬性相似度,當屬性相似度值越高時打分函數打分值越高。
實體對齊是指將不同知識圖譜間指向現實世界中相同對象的實體鏈接起來。有上述可知,已有的實體對齊方法存在以下問題:(1)無法完整利用知識圖譜的內部信息,存在數據摒棄問題,缺乏實用性;(2)大多數方法將多個知識圖譜的融合問題轉換為兩兩知識圖譜融合的問題,計算代價過大,多個知識圖譜共同融合的問題暫未解決;(3)基于相似性計算的方法無法解決結構異質性和跨語言實體對齊的問題,方法不具有通用性。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的一個目的在于提出一種基于翻譯模型的協同迭代聯合實體對齊方法,該方法可以解決多個知識圖譜共同融合的問題和結構異質的知識圖譜、跨語言知識圖譜實體對齊問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910380017.7/2.html,轉載請聲明來源鉆瓜專利網。





