[發明專利]一種基于神經網絡與注意力機制的情報關系提取方法有效
| 申請號: | 201710392030.5 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107239446B | 公開(公告)日: | 2019-12-03 |
| 發明(設計)人: | 劉兵;周勇;張潤巖;王重秋 | 申請(專利權)人: | 中國礦業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/02 |
| 代理公司: | 32249 南京瑞弘專利商標事務所(普通合伙) | 代理人: | 彭雄<國際申請>=<國際公布>=<進入國 |
| 地址: | 221000 江蘇省徐*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 注意力 機制 情報 關系 提取 方法 | ||
1.一種基于神經網絡與注意力機制的情報關系提取方法,其特征在于,包括以下步驟:
步驟1)構建用戶字典,神經網絡系統已有初始的用戶字典;
步驟2)訓練詞向量,從有關的數據庫中提取文本資料,利用步驟1)得到的用戶字典訓練詞向量庫,將文本資料中的文本詞匯映射成數值化的向量數據;
步驟3)構造訓練集,從歷史情報數據庫中提取情報對,使用步驟2)中得到的詞向量庫將每對情報轉化為情報關系三元組訓練數據<情報1,情報2,關系>;
步驟4)語料預處理,先利用步驟1)得到的用戶字典對步驟3)得到的訓練數據進行語料預處理,即分詞和命名體識別;分詞和命名體識別使用現有的自動化工具實現,預處理最終結果是將每條情報轉化為行為詞向量維度、列為語句長度的情報詞語矩陣,并標注其中命名體位置,情報兩兩一組;
步驟5)神經網絡模型訓練,將步驟4)得到的矩陣加入神經網絡進行訓練,得到關系抽取神經網絡模型;其中神經網絡的訓練方法,包括以下步驟:
步驟5-1)將情報詞語矩陣輸入雙向長短時記憶網絡Bi-LSTM單元提取綜合語境的信息,分別將正序語句和倒序語句輸入兩個長短時記憶網絡LSTM單元;在計算本時刻時,迭代地考慮上時刻的作用;LSTM單元的隱層計算及特征提取的組合表達式如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc)
ct=itgt+ftct-1
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ot·tanh(ct)
式中:xt表示t時刻步驟4)中得到的情報詞語矩陣,也是神經網絡的輸入矩陣;
it表示t時刻輸入門的輸出結果;
ft表示t時刻遺忘門的輸出結果;
gt表示t時刻輸入整合的輸出結果;
ct、ct-1分別表示t時刻和t-1時刻記憶流狀態;
ot表示t時刻輸出門的輸出結果;
ht、ht-1分別表示t時刻和t-1時刻隱層信息,即神經網絡提取的特征輸出;
σ()表示sigmoid激活函數,tanh()表示雙曲正切激活函數;
Wxi、Whi、Wci、Wxf、Whf、Wcf、Wxc、Whc、Wcc、Wxo、Who、Wco表示待訓練的權值參數,其角標前者表示相乘的輸入量,后者表示所屬的計算部分;
bi、bf、bc、bo表示待訓練的偏置參數,其角標表示所屬的計算部分;
這里待訓練的所有權值參數和偏置參數都是先隨機初始化,然后訓練過程中自動修正,最后會隨神經網絡的訓練得到最終的值;
步驟5-2)加權拼接正序語句和倒序語句的兩個長短時記憶網絡LSTM單元輸出作為神經網絡的最終輸出;
ofinal=Wfwhfw+Wbwhbw
式中,hfw表示處理正序語句的LSTM網絡的輸出,Wfw表示其對應的待訓練的權值;
hbw表示處理倒序語句的LSTM網絡的輸出,Wbw表示其對應的待訓練的權值;
ofinal表示神經網絡的最終輸出;
這里待訓練的權值Wfw、Wbw也是先隨機初始化,然后訓練過程中自動修正,最后會隨神經網絡的訓練得到最終的值;
步驟5-3)依據命名體對應位置的神經網絡輸出來計算情報整句話的注意力分配,并按照分配組合神經網絡的整句輸出,其公式如下:
α=softmax(tanh(E)·Wa·Ofinal)
r=α·Ofinal
式中,α為注意力分配矩陣,r為情報語句經過針對性整合的輸出;E為循環神經網絡在命名體位置上的輸出,使用固定窗口的模式,選取前K重要的命名體拼接成命名體矩陣;Ofinal為神經網絡的最終輸出,形如[o1,o2,o3...on],其中o1,o2,o3...on為神經網絡對應節點的輸出,n為情報的詞語數量;
Wa為待訓練的權值矩陣,softmax()為softmax分類器函數,tanh()為雙曲正切激活函數;這里待訓練的權值Wa也是先隨機初始化,然后訓練過程中自動修正,最后會隨神經網絡的訓練得到最終的值;
步驟5-4)對于兩條情報語句經過針對性整合的輸出r,拼接后輸入全連接層,最后使用softmax分類器進行關系分類,對得到的預測結果使用梯度下降法訓練權值;
步驟6)情報獲取,輸入兩條一組的文字情報,一個批次可以有多組,其中文字情報為一段中心明確的文字,若為新情報,則可以選擇擴充步驟1)中得到的用戶字典;
步驟7)文本預處理,通過步驟4)中訓練好的分詞工具、步驟2)得到的詞向量庫和步驟4)中使用的命名體識別工具,將步驟6)中原始的整句的文字信息轉化為情報數值矩陣;其中每行是每個詞的向量表示,一個矩陣即表示一條情報,同時標注其中命名體的位置;
步驟8)關系抽取,將步驟7)處理好的兩兩一組的情報矩陣對輸入步驟5)訓練好的關系抽取神經網絡模型,進行自動化的關系抽取,最終得到每組情報的關系類別;
步驟9)增量式更新,判斷步驟8)得到的每組情報的關系類別正誤,若判斷正確,則結合步驟6)中獲取的情報和相應的關系類別進行可視化展示,若判斷錯誤,則可以選擇將正確判斷的情報關系三元組訓練數據加入步驟3)中的訓練集,重復步驟4)與步驟5),重新訓練修正神經網絡模型;
使用雙向循環神經網絡、結合命名實體對情報中各詞的注意力分配,在情報的詞向量表示中提取出特征信息,使用softmax分類器對提取的特征信息進一步分類,從而完成情報的關系提取任務;使用雙向長短時記憶網絡有效地考慮完整語境信息,使用命名實體的注意力權重可依據敘事中心詞自動分配情報中每個詞的重要程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學,未經中國礦業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710392030.5/1.html,轉載請聲明來源鉆瓜專利網。





