[發明專利]一種基于實體關聯性約束的表示學習方法有效
| 申請號: | 201810377516.6 | 申請日: | 2018-04-25 |
| 公開(公告)號: | CN108647258B | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 劉瓊昕;馬敬;龍航 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06K9/62 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實體 關聯性 約束 表示 學習方法 | ||
1.一種基于實體關聯性約束的表示學習方法,其特征在于:核心思想是:基于實體描述文本挖掘出關聯性實體并對關聯性進行分級,將關聯性作為輔助約束融合到基于翻譯的表示學習方法中;主要利用注解后的實體描述文本得到實體間的共現信息,該信息作為一種衡量兩個實體間語義關聯程度的標準,并且該關聯程度是有向的;具體實施是將知識圖譜中的頭實體h、尾實體t以及頭實體和尾實體之間的關系r,分別嵌入到向量h、向量t和向量r中;具體通過以下步驟實現:
步驟一、對實體的描述文本進行注解和關聯性劃分,得到實體的強關聯實體集合和弱關聯實體集合;具體包含如下子步驟:
步驟1.1、對實體的描述文本注解,得到實體注解結果;
其中,實體是指知識圖譜中的實體,用e表示;e的描述文本,用Dese表示,是一段有序的單詞集合,用公式(1)來表示:
Dese=<w1,...,wm> (1)
其中,w1,...,wm是單詞,m為描述文本中單詞的數量,描述文本中提取的實體由大于等于1個單詞組成,當實體由大于等于兩個單詞組成時,需要對提取出來的單詞進行拼接;
從描述文本中提取實體的過程稱為描述文本注解;將描述文本中提取的實體組成集合,即得到實體注解結果:
Dese'=<w1,...,wm'> (2)
其中,m'≤m,wi表示一個實體,Dese'為Dese的實體注解結果;
步驟1.2、關聯性劃分;
利用步驟1.1輸出的實體注解結果中第i個和第j個實體通過公式(3)得到實體j對實體i的關聯程度值,用Wij表示:
如果Wij=2,記j為i的強關聯實體(Strong Relevant Entity);如果Wij=1,記j為i的弱關聯實體(Weak Relevant Entity),如果兩個實體在彼此描述中相互出現,則關聯性變強,然后得到實體e的強關聯實體集合和弱關聯實體集合;
遍歷實體注解結果中的所有實體,得到關聯程度值組成的實體關聯矩陣,記為W∈¥|E|×|E|,E是知識圖譜中的實體集合,|E|表示知識圖譜中的實體總個數:
其中,實體e的強關聯實體集合記為S(e):
其中,ei代表第i個實體,代表實體e和實體ei之間為強關聯實體關系;
實體e的弱關聯實體集合記為W(e):
步驟二、樣本負采樣及模型訓練,得到實體和關系的嵌入式表示;代表實體e和實體ei之間為弱關聯實體關系,具體包括如下子步驟:
步驟2.1、初始化循環計數值為1以及循環計數最大值;
其中,循環計數值,記為k;循環計數最大值,記為iter;
步驟2.2、令S表示知識圖譜中的三元組集合,知識圖譜中的一個三元組為一個正樣本,即S為正樣本集合;從S中隨機抽取B條正樣本得到一個子集合Sbatch,令的構造包括如下子步驟:
步驟2.2.1、遍歷Sbatch,對每個正樣本(h,r,t)進行負采樣;
產生一個[0,1]區間的均勻分布的隨機數p,如果p小于等于tphr/(tphr+hptr),則從知識圖譜的實體集合E中等概率地抽取一個實體替換正樣本中的頭實體,且保證替換后的三元組不屬于S;如果p大于tphr/(tphr+hptr),則從知識圖譜的實體集合E中等概率地抽取一個實體替換正樣本中的尾實體,且保證替換后的三元組不屬于S;
步驟2.2.2、替換完成后,可得到Sbatch中每一個正樣本(h,r,t)所對應的負樣本(h',r,t'),將每個正樣本和負樣本加入到Tbatch集合中:
經過步驟2.2.1和步驟2.2.2后得到Tbatch集合,抽出Tbatch中的實體集合,記為Ebatch;
步驟2.3、基于批量隨機梯度下降算法對模型進行訓練;
步驟2.3.1、通過公式(7),三元組(h,r,t)的評分函數計算三元組(h,r,t)的評分,記為fr(h,t);
其中,代表h+r-t向量的2范數的平方;
步驟2.3.2、通過公式(8)計算基于實體關聯性的損失項Lr:
其中,α和β為強關聯權值和弱關聯權值,α決定了強關聯性約束的強度,β決定了弱關聯性約束的強度;e代表Ebatch中的實體;在公式(8)的左邊項,e'代表e的強關聯實體集合,在公式(8)的右邊項,e'表e的弱關聯實體集合;代表向量e-e'的2范數的平方;SC和WC代表用戶指定的強關聯超參數和弱關聯超參數,分別表示對兩個關聯實體間的距離限制,當實體對在對應的范圍內時損失為0,Lr使得有關聯的實體對在向量空間里的距離不超過一定范圍,并且不是一味地使關聯實體對距離最小;
步驟2.3.3、通過公式(9)計算模型的損失函數值:
其中,Loss代表模型的損失函數值;fr(h,t)代表正樣本(h,r,t)的評分,fr(h',t')代表負樣本(h',r,t')的評分,訓練時會使得正樣本評分趨于低值,負樣本評分趨于高值;γ為損失間隔,γ用于控制fr(h,t)和fr(h',t')的差異;
步驟2.3.4、計算公式(9)中關于自變量的導數,并按照公式(10)進行更新;
其中,θ為自變量,包括所有的h,r和t,rate為學習率,代表對模型的損失函數值Loss關于自變量θ取微分;
步驟2.3.5、判斷循環計數值k是否已經達到計數最大值iter,如果k=iter,完成本方法;否則k=k+1,跳至步驟2.2;
至此,從步驟一到步驟二,得到了實體和關系的嵌入式表示:向量h、向量t和向量r。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810377516.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種微博情感確定方法
- 下一篇:基于改進深度特征加權的樸素貝葉斯文本分類方法





