[發(fā)明專利]基于實體序列編碼的知識圖譜融合方法有效
| 申請?zhí)枺?/td> | 201911393679.4 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111191471B | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設(shè)計)人: | 李建欣;黃洪仁;寧元星;毛乾任;司靖輝 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/295;G06F16/36 |
| 代理公司: | 北京中創(chuàng)陽光知識產(chǎn)權(quán)代理有限責(zé)任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 實體 序列 編碼 知識 圖譜 融合 方法 | ||
本發(fā)明公開了基于實體序列編碼的知識圖譜融合方法,所述方法包括:步驟一:知識圖譜實體表示學(xué)習(xí);步驟二:選擇路徑編碼和對齊模型;步驟三:跨語言實體對齊模型,其中,在源語言知識圖譜空間中,針對其中的一個實體,構(gòu)建與其他種子實體的2跳序列,在目標(biāo)語言知識圖譜空間中構(gòu)建可能與之對應(yīng)的序列,找出概率最高的對齊序列,然后從對齊序列中找到同位置的節(jié)點,作為該節(jié)點的對齊節(jié)點;步驟四:添加新的候選種子節(jié)點;本發(fā)明針對現(xiàn)有技術(shù)中深度學(xué)習(xí)模型訓(xùn)練語料不足的問題,提出了基于實體路徑表示學(xué)習(xí)的方法。
技術(shù)領(lǐng)域
本發(fā)明涉及知識圖譜應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種基于實體序列編碼的知識圖譜融合方法。
背景技術(shù)
目前國內(nèi)外的知名互聯(lián)網(wǎng)企業(yè),例如谷歌、百度、騰訊、微軟都搭建了屬于自己的知識庫,這些知識庫提供了大量的知識服務(wù)信息,例如谷歌的知識庫系統(tǒng)Knowledge Vault已經(jīng)入庫16億條信息,目前還在收集入錄更多的信息。百度的知識圖譜的應(yīng)用服務(wù)在5年間增長了160倍。這些企業(yè)使用知識圖譜可以提供的更多語義信息,提供更加智能化的搜索服務(wù),為互聯(lián)網(wǎng)用戶提供了便攜的服務(wù)。
這些知識圖譜包含了大量常識信息,融合這些跨語言的知識庫可以提供更多的知識,為互聯(lián)網(wǎng)用戶提供更智能化的信息檢索幫助服務(wù)。但是知識庫體系龐大,內(nèi)容眾多,語言不一致,如何高效融合這些知識庫成為一個重點挑戰(zhàn)問題。融合知識圖譜的首要工作是找出兩個只是空間可對齊的知識實體,例如將英文知識庫中NewYork和中文知識庫中的紐約對齊為一個實體。傳統(tǒng)的方法可以使用機器詞翻譯的方式,將多語言實體的詞進(jìn)行翻譯,但是存在著一詞多義的情況,例如朝陽這個詞可能指的是遼寧的朝陽,也可能是北京的朝陽。使用深度學(xué)習(xí)的方法學(xué)習(xí)節(jié)點向量,標(biāo)注已知的對齊實體對,訓(xùn)練對齊模型進(jìn)行對齊,是目前研究的熱點工作,這個方法根據(jù)實體的語義信息和實體之間的關(guān)系語義進(jìn)行對齊操作,提高了模型的準(zhǔn)確率,但是這類模型存在問題,標(biāo)注訓(xùn)練語料需要耗費大量人力。
而且,由于深度學(xué)習(xí)模型在實體對齊任務(wù)中的良好表現(xiàn),但是缺少訓(xùn)練語料的問題,如果訓(xùn)練語料不充分,無法學(xué)習(xí)出準(zhǔn)確高效的對齊模型。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供了一種基于實體序列編碼的知識圖譜融合方法學(xué)習(xí)方法。
基于實體序列編碼的知識圖譜融合方法,包括:
步驟一:知識圖譜實體表示學(xué)習(xí);
步驟二:選擇路徑編碼和對齊模型;
步驟三:跨語言實體對齊模型,其中,在源語言知識圖譜空間中,針對其中的一個實體,構(gòu)建與其他種子實體的2跳序列,在目標(biāo)語言知識圖譜空間中構(gòu)建可能與之對應(yīng)的序列,找出概率最高的對齊序列,然后從對齊序列中找到同位置的節(jié)點,作為該節(jié)點的對齊節(jié)點;
步驟四:添加新的候選種子節(jié)點。
進(jìn)一步,所述步驟一中,使用RotatE模型分別學(xué)習(xí)源語言知識圖譜空間和目標(biāo)語言知識圖譜空間中的實體表示向量和關(guān)系表示向量,所述RotatE模型通過三種關(guān)系:對稱、反轉(zhuǎn)、構(gòu)成,來訓(xùn)練所述實體表示向量和所述關(guān)系表示向量,得到三元組集合和種子實體對。
進(jìn)一步,所述步驟二中,包括構(gòu)建訓(xùn)練實體序列、對實體序列進(jìn)行編碼;對于任意一對跨語言對齊種子實體,在所述源語言知識圖譜空間中選擇2跳路徑,所述2跳路徑上的點都是對齊的種子實體,構(gòu)建長度為5的節(jié)點序列,在所述目標(biāo)語言知識圖譜空間中構(gòu)建同樣長度為5的節(jié)點序列,兩個空間中2跳實體序列上的點是一一對應(yīng)的;訓(xùn)練時,對所述節(jié)點序列上的節(jié)點和關(guān)系的表示向量進(jìn)行拼接和卷積操作學(xué)習(xí)出2個實體序列的表示,并設(shè)計公式計算兩個實體序列是否是同一實體序列的概率。
進(jìn)一步,所述計算兩個實體序列是否是同一實體序列的概率的公式為:
p(vt|vs)=exp(-η||vt-θvs||2)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911393679.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





