[發明專利]知識庫實體對齊方法和裝置在審
| 申請號: | 202010104948.7 | 申請日: | 2020-02-20 |
| 公開(公告)號: | CN113282676A | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 李涓子;李成江;史佳欣;侯磊;張鵬;唐杰;許斌 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06N3/04 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 馬瑞 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識庫 實體 對齊 方法 裝置 | ||
本發明實施例提供一種知識庫實體對齊方法和裝置,所述方法包括使用圖注意力神經模型將待對齊的至少兩個知識庫進行實體編碼,獲得注意力增強的實體向量表示,且所述注意力增強的實體向量表示融合了實體鄰居信息;基于注意力增強的實體向量表示,使用知識庫表示學習模型,獲得用于約束所述實體向量表示的第一約束條件;基于預先確定的等價實體對集合,獲得第二約束條件;基于所述第一約束條件和所述第二約束條件,實現所述至少兩個知識庫之間的實體對齊。本發明實施例提供的知識庫實體對齊方法和裝置,能充分地利用有限的預先對齊的實體對,很好地處理異構知識庫之間的差異,提升實體對齊的效果。
技術領域
本發明涉及知識庫處理技術領域,更具體地,涉及一種知識庫實體對齊方法和裝置。
背景技術
知識庫可以為不同的應用提供各種結構化知識,由于這些知識庫具有不盡相同的構造目的,知識之間存在很大的異構性,同時也會包含一些互補知識。為了更好的支持上層的跨語言問答系統、跨語言推薦系統等任務,融合不同的知識庫成為一個重要的研究方向。其中,實體對齊就是知識庫融合的一項關鍵技術。
知識庫實體對齊方法的第一種方法,主要利用實體文本信息、實體屬性信息、實體網絡結構信息等,計算一系列相似度,然后通過人為設定的閾值,或是機器學習中的分類算法,來實現對給定實體對是否為等價實體的判定。這種對齊方法依賴于大量的人工特征設計來得到相似度計算方法,在知識庫規模較大時,耗時耗力。另外,不同知識庫的知識結構往往差異較大,難以針對所有實體對齊任務設計出一套統一且高效的特征抽取方法。
知識庫實體對齊方法的第二種方法,采用基于表示學習的方法來對知識庫中的實體進行對齊。主要的步驟是,使用知識庫表示學習的方法,分別對需要對齊的兩個知識庫進行表示學習,得到實體的向量表示,然后依賴少量預先對齊的實體對(即等價實體對),最小化等價實體對之間實體的距離,達到將兩個知識庫的實體表示到同一個向量空間的目的,從而完成實體對齊,得到實體對齊的知識庫。這種知識庫實體對齊方法雖不依賴于人工特征設計,但效果受限于預先對齊的實體對數量,當預先對齊的等價實體對規模較小時,效果很難讓人滿意。其次,這類方法同樣未能很好地處理異構知識庫之間的差異,當兩個知識庫結構存在差異時,實體對齊的效果也會受到影響。
發明內容
本發明實施例提供一種克服上述問題或者至少部分地解決上述問題的知識庫實體對齊方法、裝置、電子設備和可讀存儲介質。
第一方面,本發明實施例提供一種知識庫實體對齊方法,包括:使用圖注意力神經模型將待對齊的至少兩個知識庫進行實體編碼,獲得融合了實體鄰居信息的注意力增強的實體向量表示;基于注意力增強的實體向量表示,使用知識庫表示學習模型,獲得用于約束所述實體向量表示的第一約束條件;基于預先確定的等價實體對集合,獲得第二約束條件;基于所述第一約束條件和所述第二約束條件,實現所述至少兩個知識庫之間的實體對齊。
在一些實施例中,所述使用圖注意力神經模型將待對齊的至少兩個知識庫進行實體編碼,獲得融合了實體鄰居信息的注意力增強的實體向量表示包括:對于任一知識庫,獲取所述任一知識庫的實體及所有實體的鄰居集合;將包括一個實體的向量表示矩陣和所述鄰居集合輸入至所述圖注意力神經模型,得到所述圖注意力神經模型輸出的所述實體向量表示;其中為有理數,n為所述任一知識庫的實體數量,d為向量表示的維度。
在一些實施例中,所述知識庫實體對齊方法還包括:所述圖注意力神經模型包括L層卷積層,每一層應用公式H(l+1)=σ(A(l)H(l)W(l))確定,其中,為第l層的隱狀態,為第l層的參數,H(0)=X,σ(·)為非線性激活函數ReLU(·)=max(0,·),為所述任一知識庫在自注意力機制作用下的連接性矩陣,A(l)的每一個元素表示所述任一知識庫中實體ei到ej的權重,A(l)應用公式
確定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010104948.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:事件百科文檔自動生成方法和裝置
- 下一篇:鉸鏈結構和折疊式電子設備





