[發明專利]融合實體描述與路徑信息的知識圖譜表示學習模型的方法在審
| 申請號: | 202211068938.8 | 申請日: | 2022-08-30 |
| 公開(公告)號: | CN115438189A | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 李軍懷;武允文;王懷軍;崔穎安;張發存 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/33;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 王敏強 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 實體 描述 路徑 信息 知識 圖譜 表示 學習 模型 方法 | ||
1.融合實體描述與路徑信息的知識圖譜表示學習模型的方法,其特征在于,具體按照以下步驟實施:
步驟1、從大型知識圖譜Freebase中抽取兩個子集作為訓練集,結合Ruobing Xie人為訓練集所做的實體描述,將二者輸入進微調過的強力優化的預訓練語言表征模型RoBERT中,通過自注意力機制和一個包括4個全連接層、激活函數Relu的前饋神經網絡進行訓練學習,在最后一層輸出融合實體描述的實體、關系表示學習向量;
步驟2、利用基于有序關系路徑的知識圖補全表示學習OPTransE模型將知識圖譜轉化成融入有序關系路徑信息的向量,輸出所有訓練集三元組的能量值EP;
步驟3、結合步驟1、步驟2輸出的訓練向量,計算出基于實體描述和路徑信息的能量值ED,與基于路徑信息的能量值EP相加,每個三元組的總能量值定義為ED+EP,然后采用梯度下降優化三元組的向量表示,目標是通過最小化總能量值,訓練得到知識圖譜表示學習模型。
2.根據權利要求1所述的融合實體描述與路徑信息的知識圖譜表示學習模型的方法,其特征在于,所述步驟1具體按照以下步驟實施:
步驟1.1、抽取大型知識圖譜Freebase的兩個子集——FB15k-237與FB15K中的三元組,將三元組視為包含三個句子的文本序列,并使用實體描述替換掉實體;本發明使用[CLS]分類標簽和[SEP]分割標簽,將原始RoBERTa模型調整為接收規定形式的文本序列輸入,規定形式為頭實體-關系-尾實體,調整后的模型輸入具體如下:
S1.1.1、假定存在三元組(SteveJobs,founded,AppleInc),在每個輸入序列的頭部位置設置分類標簽[CLS];
S1.1.2、將頭實體“Steve Jobs.”或者是對應的實體描述“Steven Paul Jobs was anAmerican business mag-nate,entrepreneur and investor”表示成一個包含a個token的句子,token是自然語言輸入進RoBERTa模型的最小單位,表示為單個英文詞匯;
S1.1.3、將關系“founded”表示成一個包含b個token的句子,
S1.1.4、將尾實體“Apple Inc.”或者是對應的實體描述同樣被表示成一個包含c個token的句子:
S1.1.5、在實體與關系之間加入特殊分割標簽[SEP];
步驟1.2、將步驟1.1中所轉化的文本序列進行初始化結構調整后,作為RoBERTa模型的輸入,最后利用特殊分類標簽[CLS]的隱態輸出向量C預測三元組是否正確,通過模型中基于多頭自注意力機制的多層Transfomer編碼塊對文本進行建模,使得每個詞都能融合整個句子的信息,自注意力機制的定義如下:
從每個編碼塊的輸入向量即每個單詞的詞向量中生成三個向量:查詢向量Qi,鍵向量Ki和值向量Vi,令在第i個頭的自注意力機制向量為Xi,分別根據按照公式(1)、(2)和(3)計算出Vi、Ki與Qi:
Vi=WVXi (1)
Ki=WKXi (2)
Qi=WQXi (3)
WQ、WK與WV為權重值,
最后根據Vi、Ki與Qi求表示學習向量Xi的對應歸一化指數函數softmax:
dk為Qi維數,Attention為自注意力,為Ki的轉置,
在多頭注意力機制下,每一個注意力頭上都重復上述操作,通過不同的注意力頭得到多個特征表示,將這些多頭的輸出特征向量進行拼接,與隨機初始化的權重矩陣相乘,再連接一個全連接層進行降維;
得到多頭注意機制后,在每個編碼塊中跟隨一個LayerNormalize(層歸一化)步驟,層歸一化的操作如公式(5)和(6)所示:
Y=LayerNormalize([Y1;…;Yh]WY+X) (5)
其中,Y為注意力頭輸出,Relu為激活函數,W和b為可調參數,[Y1;…;Yh]表示對多頭輸出進行拼接,O=[o1,o2,…,on]為一個編碼塊的輸出,這個輸出同樣作為下個編碼塊的輸入,之后以此類推,直到最后一個編碼塊的輸出結果作為整個Transformer的輸出;
步驟1.3、對步驟1.2所輸出的向量O求平均作為最終的模型輸出,得到基于實體描述的向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211068938.8/1.html,轉載請聲明來源鉆瓜專利網。





