[發明專利]一種用于知識圖譜的實體對齊方法有效
| 申請號: | 201910968049.9 | 申請日: | 2019-10-12 |
| 公開(公告)號: | CN110955780B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 趙翔;曾維新;唐九陽;徐浩;譚真;殷風景;葛斌;肖衛東 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 知識 圖譜 實體 對齊 方法 | ||
本發明公開了一種用于知識圖譜的實體對齊方法,包括以下步驟:獲取兩個知識圖譜的數據;利用圖卷積網絡學習實體的結構向量,將實體的名字表示為詞向量;計算實體的結構距離和詞特征距離;并將兩個距離融合綜合距離以表示實體的相似程度;根據相似程度的計算結果進行實體識別對齊。本發明方法設計了一個融合結構特征和實體名特征的實體對齊基本框架;采用詞移距離模型將前序對齊結果進行重排序,以充分挖掘實體名信息,提升實體對齊的準確性和時效性。
技術領域
本發明屬于知識圖譜數據處理領域,具體涉及一種用于知識圖譜的實體對齊方法。
背景技術
近年來,涌現出一大批知識圖譜(knowledge graph,KG),諸如YAGO,DBpedia,NELL,以及中文的CN-DBpedia,Zhishi.me等。這些大規模知識圖譜在問答系統、個性化推薦等智能服務中起到重要作用。此外,為滿足特定領域相關需求,衍生出越來越多的領域知識圖譜,如醫療知識圖譜。在知識圖譜構建過程中,無法避免地需要在覆蓋率和正確率間作權衡。而任何一個知識圖譜,都無法達到完備或者完全正確。
為提升知識圖譜的覆蓋率及正確率,一種可行方法是從其它知識圖譜中引入相關知識,因為以不同方式構建得到的知識圖譜間存在知識的冗余以及互補。例如,從網頁上抽取構建的通用知識圖譜中可能僅包含藥品的名字,而更多的信息可在基于醫療數據構建的醫療知識圖譜中找到。為將外部知識圖譜中的知識整合到目標知識圖譜中,最重要的一步是對齊不同的知識圖譜。為此,實體對齊(entity alignment,EA)任務被提出并受到廣泛關注。該任務旨在找到不同知識圖譜中表達同一含義的實體對。而這些實體對則作為鏈接不同知識圖譜的樞紐,服務于后續任務。
目前,主流實體對齊方法主要借助知識圖譜結構特征判斷兩實體是否指向同一事物。這類方法假設不同知識圖譜中表達同一含義的實體具有類似的鄰接信息。在人工構建的數據集上,這類方法取得了最好的實驗結果。但最近一項工作指出,這些人工構建的數據集中的知識圖譜比真實世界的知識圖譜更加稠密,而基于結構特征的實體對齊方法在具有正常分布的知識圖譜上效果大打折扣。
事實上,通過分析真實世界知識圖譜中的實體分布可知,超過半數的實體只與一兩個其它實體相連。這些實體被稱為長尾實體(long-tail entities),占據了知識圖譜實體的大部分,使得圖譜整體呈現較高的稀疏性。這也符合對真實世界知識圖譜的認知:只有很少一部分實體被經常使用并具有豐富的鄰接信息;絕大部分實體很少被提及,包含微少的結構信息。因此,當前基于結構信息的實體對齊方法在真實世界數據集上的表現不盡人意。
發明內容
有鑒于此,本發明的目的在于提出一種用于知識圖譜的實體對齊方法,所述方法克服現有技術中只采用實體的結構信息而進行實體對齊的不足,充分利用實體的結構信息以及實體名稱信息,綜合用于實體對齊,從而提升對齊的效能。
基于上述目的,本發明提供的一種用于知識圖譜的實體對齊方法,包括以下步驟:
步驟1,獲取兩個知識圖譜的數據;
步驟2,利用圖卷積網絡學習實體的結構向量;將實體的名字表示為詞向量;
步驟3,計算實體的結構距離和詞特征距離;
步驟4,并將兩個距離融合綜合距離以表示實體的相似程度;
步驟5,根據相似程度的計算結果進行實體識別對齊,獲得相似實體對。
所述的兩個知識圖譜表示為,G1=(E1,R1,T1)和G2=(E2,R2,T2),其中E代表實體,R代表關系,代表圖譜中的三元組,已知實體對表示為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910968049.9/2.html,轉載請聲明來源鉆瓜專利網。





