[發明專利]一種基于標簽圖轉化的領域文本相似度計算方法及系統在審
| 申請號: | 202111040367.2 | 申請日: | 2021-09-06 |
| 公開(公告)號: | CN113742494A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 程戈;張冬良;廖永安;侯壹凡 | 申請(專利權)人: | 湘潭大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06K9/62 |
| 代理公司: | 北京卓恒知識產權代理事務所(特殊普通合伙) 11394 | 代理人: | 徐樓 |
| 地址: | 411105 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 轉化 領域 文本 相似 計算方法 系統 | ||
1.一種基于標簽圖轉化的領域文本相似度計算方法,其特征在于,包括如下步驟:
S1.從每個待計算相似度的領域文本中抽取實體和關系以構建知識圖譜;
S2.知識圖譜表征初始化,獲得實體和關系的表征向量;
S3.對知識圖譜進行無標簽化轉換,將待轉化的知識圖譜中的關系轉化為節點,得到無標簽化知識圖譜;
S4.無標簽化知識圖譜節點表征向量賦值;
S5.構建無標簽化知識圖譜相似度計算模型,對無標簽化知識圖譜進行特征提取,并計算領域文本相似度。
2.根據權利要求1所述的領域文本相似度計算方法,其特征在于,步驟S1具體為:使用實體關系聯合抽取方法從領域文本中抽取實體和關系,以構建三元組(h,r,t),然后對三元組進行連接,實現針對領域文本T構建知識圖譜G=(V,E);和/或
步驟S2具體為:使用知識圖譜表征算法進行表征學習,使用捕捉所述知識圖譜的實體和關系語義的自然語言預訓練模型或者捕捉所述知識圖譜結構信息的平移模型得到所述實體和所述關系的表征向量。
3.根據權利要求1所述的領域文本相似度計算方法,其特征在于,步驟S3具體為:知識圖譜是一種節點和邊都具有標簽的圖,將所述知識圖譜轉化為僅有所述節點具有標簽的圖,所述標簽包括:文本、數值等信息;所述知識圖譜中的實體和關系可以表示成(h,r,t),將所述關系r節點化為noder,作為所述無標簽化知識圖譜的邊節點,將所述實體h和t直接作為所述無標簽化知識圖譜的實體節點,然后增加兩條無標簽的邊(nodeh,noder)和(noder,nodet)將所述節點h、noder和t連接起來;所述增加兩條無標簽的邊,在所述知識圖譜的所述關系是有向邊時,增加的所述兩條無標簽邊和所述關系的方向相同,在所述知識圖譜的所述關系是無向邊時,增加的所述兩條無標簽邊也是無向的;和/或
步驟S4具體為:將所述知識圖譜中的實體的表征向量賦值給所述實體節點;將所述知識圖譜中的關系的表征向量賦值給所述邊節點,即
4.根據權利要求1所述的領域文本相似度計算方法,其特征在于,步驟S5具體為:基于圖神經網絡構建領域文本相似度計算模型可分為信息傳播層和信息聚合層,信息傳播層的作用是進行信息傳播,以更新每個節點的表示,即將節點表示映射為新的節點表示信息聚合層的作用是計算圖級別表征hG。
5.根據權利要求2所述的領域文本相似度計算方法,其特征在于,步驟S1實現方式如下:
S11.將三元組抽取問題轉換為序列標注問題,使用Bi-LSTM作為序列編碼器捕獲領域文本中每個詞的語義,通過獨熱編碼和嵌入層,領域文本中的詞序列可以表示為每個詞wt都是一個d維向量,將W輸入序列編碼器得到上下文信息:
ht=ottanh(ct)
其中,ot為輸出門,ct表示詞t的嵌入向量,聯結雙向的詞嵌入獲得隱藏狀態
S12.使用LSTM作為解碼器,解碼器的輸出為:
Tt=W1ht+b1
S13.基于標簽預測向量Tt計算領域文本中每個詞的歸一化標簽概率:
yt=W2Tt+b2
其中,N為標簽總數,W1、b1、W2、b2為參數,pt為標簽概率;
S14.從獲得的領域文本中每個詞的標簽概率pt,選定概率值最大的對應的標簽作為該詞的標簽,然后將具有相同關系的實體合并為一個三元組,不同三元組存在相同的頭實體或尾實體,因此三元組可以相互連接構成知識圖譜G。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湘潭大學,未經湘潭大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111040367.2/1.html,轉載請聲明來源鉆瓜專利網。





