[發明專利]一種基于多種實體上下文的實體對齊方法有效
| 申請號: | 202110346496.8 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN112988917B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 吳天星;李林;漆桂林 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/36;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 張天哲 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多種 實體 上下文 對齊 方法 | ||
1.一種基于多種實體上下文的實體對齊方法,其特征在于,該方法包括以下步驟:
1)首先,利用TransE從知識圖譜關系三元組中學習出實體的一跳結構信息;給定一個關系三元組tr=(head,rel,tail),其中head和tail表示實體,rel表示關系,使用首字母h、t和r分別代表其向量表示,那么TransE盡量使h+r≈t,即評分函數盡量小;在學習過程中,為了增強知識表示的區分能力,采用最大間隔法,并定義了以下目標函數:
其中,γ為正樣本的評分與負樣本的評分之間的間隔,G是合法三元組正樣本的集合,即用于訓練的三元組集合,G′為錯誤的三元組負樣本的集合,E代表知識圖譜中所有實體的集合;負樣本是通過對正樣本進行負采樣得到的,具體過程是將正樣本的頭實體或尾實體隨機替換為另一個實體而獲得的,分別對應公式中h′、t′,負樣本采樣如下面公式所示:
利用RDF2Vec從知識圖譜關系三元組中學習實體的多跳結構信息,將知識圖譜看成由無數條實體關系路徑構成網絡結構,通過圖隨機游走算法,每次采樣出一條或多條實體關系路徑,再利用Skip-Gram模型進行學習,將實體和關系表示成低維稠密的向量;
2)其次,利用GCN模型學習屬性三元組中實體的結構信息和內容信息;給定一個屬性三元組tv=(h,r,v),其中h和t表示實體,v表示關系,那么,關于某個特定實體的所有屬性三元組可以看成是以實體為中心的星狀圖結構,利用GCN提取星狀圖的信息;
星狀圖的頂點特征矩陣H0∈Rnxd,其中n是節點的數目,d是特征的數目,輸出是匯集了實體屬性信息和屬性值信息的新特征矩陣H1;
其中,σ是一個激活函數,是一個n×n連通性矩陣,表示圖的結構信息;I是一致性矩陣;D是A的對角度矩陣;W∈Rd×d′是GCN的權重矩陣,d’是新頂點特征的維數;
在基于屬性三元組的實體對齊任務中,不同屬性對實體對齊的貢獻不同,因此采用注意機制提取關鍵屬性信息,圖注意力網絡GAT將共享的線性變換應用于每個注意力函數中的實體;計算公式如下:
c=LeakeyReLU[(MH0)T(MH1)]
α=softmax(c)
其中,c是實體及其鄰居實體的可學習注意力權重,α是c經過softmax函數歸一化之后的權重,H1是匯集了實體屬性信息和屬性值信息的新特征矩陣;
給定屬性三元組(h,a,v)∈KG1∪KG2,定義了如下的函數,將屬性結構信息和屬性值內容信息傳遞給實體;
基于上面的公式,實體向量表示將會盡量接近屬性和屬性值的綜合向量表示;使用logistic loss優化函數fattr,公式如下:
其中,γ1和γ2分別表示來自于知識圖譜1和知識圖譜2的屬性三元組集合;
3)采用BERT作為預訓練模型,學習文本的語法結構信息和語義信息,對不同語言的文本信息進行編碼,再基于種子對齊實體對信息進行微調,計算不同語言的文本信息之間的相關性,
給定實體的不同語言的文本描述信息,根據實體的文本信息訓練BERT,訓練目標為:(1)隨機掩蓋一些詞,根據該詞的上下文預測被掩蓋的詞語,(2)隨機選取一些連續句子,預測前后句子之間的連貫性;
4)采用線性變換方法,將不同的實體上下文學習到的向量映射到同一個向量空間中,稱為共享向量空間;
其中,是實體第i個視角對應的向量表示,所述步驟1)、2)、3)中分別是三個視角即三類實體上下文對應的實體向量,Hi是將實體第i個視角的向量映射到共享空間的映射矩陣;
其中,D是視角的個數,I是單位矩陣;
4a)嵌入拼接
V=[V1;V2;...;VD]
如上式所示,在共享空間中,將所有視角即所有上下文的向量表示進行拼接,作為最終的實體向量表示;
4b)多視角完整空間學習
對于所有實體,向量表示為x,視角的個數為D,全局空間為λ,則由λ重構這D個視角的損失函數為
其中,c是一個超參數,Wi是由全局空間λ生成第i個視角的生成矩陣;上述loss函數,可以分解為兩部分,第一部分是計算生成矩陣W,第二部分是計算實體在全局空間的向量表示x;
給定生成矩陣W的情況下,上述loss函數可被簡化為
求導得出x的更新公式如下,記為公式1和公式2:
固定全局空間中所有實體向量不變的情況下,上述loss函數可被簡化為
求導得出W的更新公式如下,記為公式3和公式4:
經過多次迭代,模型收斂,向量x即為最終的實體向量表示;
5)所述步驟4)中得到了待對齊知識圖譜中所有實體的向量表示,記所有實體的向量矩陣為W1和W2,通過計算矩陣乘積,查找出與每個實體最相似的實體;
S=W1′W2
對于每個實體i,在行向量Si中,找出與實體i最相似的實體j,即:
Sij=max(Si*),0≤*≤|E|
其中|E|表示實體總數;
6)所述步驟5)中最終得到了很多最相似實體對,即為對齊實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110346496.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種天麻營養保健酸奶及其制備方法
- 下一篇:一種人力驅動的升降畫框





