[發(fā)明專利]一種基于注意力機制與圖長短時記憶神經(jīng)網(wǎng)絡結(jié)合的關(guān)系抽取方法有效
| 申請?zhí)枺?/td> | 202011059653.9 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112163426B | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設計)人: | 張勇;高大林;鞏敦衛(wèi);郭一楠;孫曉燕 | 申請(專利權(quán))人: | 中國礦業(yè)大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/211;G06F16/31;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 南京經(jīng)緯專利商標代理有限公司 32200 | 代理人: | 周科技 |
| 地址: | 221116 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 注意力 機制 短時記憶 神經(jīng)網(wǎng)絡 結(jié)合 關(guān)系 抽取 方法 | ||
1.一種基于注意力機制與圖長短時記憶神經(jīng)網(wǎng)絡結(jié)合的關(guān)系抽取方法,其特征在于:該方法包括以下步驟:
步驟1,獲取關(guān)系抽取數(shù)據(jù)集,對數(shù)據(jù)集中文本數(shù)據(jù)進行預處理,生成用于句子時序上下文信息特征提取的詞向量矩陣和用于句子結(jié)構(gòu)信息特征提取的鄰接矩陣;
生成詞向量矩陣和鄰接矩陣的方法如下:
通過引入實體標簽信息和實體位置信息來擴充詞向量;所述的實體標簽信息是通過自然語言處理工具為句子文本進行命名實體識別,打上相應標簽;
所述的實體位置信息是根據(jù)不同單詞到兩個實體的距離來生成;最后生成用于提取句子時序上下文特征的詞向量矩陣,即詞嵌入矩陣;
利用自然語言處理工具對句子進行依存結(jié)構(gòu)分析,生成原始句子依存結(jié)構(gòu)樹,將句子依存結(jié)構(gòu)樹進行補全,轉(zhuǎn)化成句子結(jié)構(gòu)圖,進而將句子結(jié)構(gòu)圖轉(zhuǎn)化成鄰接矩陣;
步驟2,構(gòu)建注意力圖長短時記憶神經(jīng)網(wǎng)絡的關(guān)系抽取模型;采用生成的詞向量矩陣和鄰接矩陣作為模型的輸入,關(guān)系類別標簽作為輸出,訓練該關(guān)系抽取模型;
注意力圖LSTM關(guān)系抽取模型結(jié)構(gòu)具體為:
模型網(wǎng)絡第一層為雙向LSTM層:該層用于提取句子時序上下文特征,以步驟1中生成的詞向量矩陣作為輸入,輸出句子時序上下文特征矩陣;
模型網(wǎng)絡第二層為AGLSTM層:該層由圖長短時記憶神經(jīng)網(wǎng)絡和注意力機制共同組成,將雙向LSTM網(wǎng)絡提取的序列特征和步驟1中生成的鄰接矩陣作為該層的輸入,模型中的注意力機制采用多頭注意力機制,該層的輸出為K個不同的特征提取結(jié)果,K為多頭注意力的head數(shù);
模型網(wǎng)絡第三層為線性連接層:利用線性連接層將AGLSTM層輸出的K個不同的結(jié)果整合成最終的輸出特征;
模型網(wǎng)絡最后一層為輸出層:將AGLSTM層輸出的特征通過最大池化層,然后通過softmax函數(shù)計算每一個類別的條件概率,輸出模型預測特征的標簽類別;
所述的圖長短時記憶神經(jīng)網(wǎng)絡層中每一個單詞節(jié)點wi的表達包括單詞節(jié)點本身特征的向量表示hi、鄰接矩陣內(nèi)所有與該單詞相連的邊的表示和每兩個單詞節(jié)點之間的邊權(quán)重即為注意力層所得多頭注意力矩陣中相應元素的權(quán)重值;單詞節(jié)點wi的隱藏狀態(tài)表示為:
其中αij為從節(jié)點i到節(jié)點j的初始句子結(jié)構(gòu)權(quán)重即鄰接矩陣中每一項對應的權(quán)值,表示節(jié)點j的所有邊的輸入,表示節(jié)點j的所有邊的輸出;
圖長短時記憶神經(jīng)網(wǎng)絡定義如下:
其中和分別是當前時刻t在神經(jīng)元j下的輸入門、輸出門和遺忘門的狀態(tài),為當前神經(jīng)元的狀態(tài),σ,tanh為激活函數(shù),為當前時刻t在神經(jīng)元j下更新狀態(tài)單元,通過更新狀態(tài)單元與上一時刻的神經(jīng)元狀態(tài)單元共同計算得到當前時刻神經(jīng)元狀態(tài)信息Wx和bx為模型參數(shù),Ux1和Ux2分別表示輸入的權(quán)重和輸出的權(quán)重,x∈(i,o,f,u);
將雙向LSTM層的輸出hlstm作為注意力機制的輸入,設hlstm長度為n,設單層LSTM隱藏層神經(jīng)元個數(shù)為d,則hlstmm的維度為2d*n,利用self-attention計算機制得到多個注意力權(quán)重矩陣;self-attention計算公式如下:
uk=tanh(Wwhlstmm+bw)
Ak=SoftMax(ukT*uk)
其中Ww,bw為感知機的權(quán)重參數(shù),是維度為a*2d的二維矩陣,a是感知機的參數(shù),則uk為將hlstmm經(jīng)過感知機輸出的隱藏特征,維度為a*n,對uk進行自注意力的計算,ukT*uk為一個n*n的二維矩陣,將其經(jīng)過歸一化處理得到第k個注意力權(quán)重矩陣Ak;
K頭注意力機制得到K個注意力權(quán)重矩陣Ak,公式如下:
其中αij為單詞i對應單詞j的注意力權(quán)重,i,j∈(1,n);
將得到的注意力權(quán)重矩陣Ak,與特征向量blstm作為AGLSTM的輸入,得到該層AGLSTM的輸出向量hout,輸出為:
其中是第K個注意力矩陣所對應的輸出;
步驟3,獲取關(guān)系抽取測試集,利用訓練好的關(guān)系抽取模型對測試集進行關(guān)系抽取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國礦業(yè)大學,未經(jīng)中國礦業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011059653.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 應用于長短時記憶神經(jīng)網(wǎng)絡的計算裝置和計算方法
- 基于長短時記憶網(wǎng)絡的目標跟蹤方法
- 基于多重注意力機制長短時記憶網(wǎng)絡的兒童情感識別方法
- 基于注意力模型長短時記憶網(wǎng)絡的洪水預測方法
- 用戶行為預測方法及裝置、電子設備、存儲介質(zhì)
- 一種航空發(fā)電機故障征兆提取方法及系統(tǒng)
- 一種基于Siamese結(jié)構(gòu)雙向長短時記憶網(wǎng)絡的三維模型檢索方法
- 基于長短時記憶網(wǎng)絡深度學習的故障電弧檢測系統(tǒng)及方法
- 一種基于膠囊-長短時記憶神經(jīng)網(wǎng)絡的視頻表情識別方法
- 基于長短時記憶網(wǎng)絡的PM2.5預測方法





