[發明專利]雙向GRU關系抽取數據處理方法、系統、終端、介質有效
| 申請號: | 202110261757.6 | 申請日: | 2021-03-10 |
| 公開(公告)號: | CN112800776B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 陳建峽;陳煜;張杰;劉暢;劉琦 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F21/60;G06F40/242;G06F40/289;G06F18/22;G06F18/2415;G06N3/047;G06N3/049;G06N3/045;G06N3/08 |
| 代理公司: | 北京金智普華知識產權代理有限公司 11401 | 代理人: | 藍曉玉 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 雙向 gru 關系 抽取 數據處理 方法 系統 終端 介質 | ||
1.一種基于關鍵詞注意力的雙向GRU關系抽取數據處理方法,其特征在于,所述基于關鍵詞注意力的雙向GRU關系抽取數據處理方法包括以下步驟:
步驟一,對基準數據集進行預處理;
步驟二,對步驟一預處理后的語料進行詞向量化;
步驟三,通過多頭注意力機制對步驟二的詞向量進行初步去噪處理;
步驟四,使用Bi-GRU網絡層對步驟三處理過的詞向量進行編碼,得到包含句子中的上下文信息的隱藏層向量;
步驟五,將步驟四的隱藏層向量作為輸入,傳遞至多頭注意力層中,通過將隱藏層輸出結合實體對相對位置特征以及實體隱藏相似度特征,計算出關鍵詞注意力權重;
步驟六,將經過步驟五關鍵詞注意力機制處理過的隱藏層向量輸入至分類層,得到最終的關系抽取結果;
所述步驟一預處理包括:
將原始文件中的原始句子以及關系標簽進行處理生成完整的句子字典和標簽字典,并將編碼修改為UTF-8編碼;去除句子中的標點符號以及重復句子和符號;使用NLTK對數據集中的文本進行分詞處理;
所述步驟二進行詞向量化包括:將分好詞的語料使用預訓練的ELMo模型進行詞向量的轉化;
ELMo模型的輸入層旨在將輸入句子的語義信息和位置信息轉換為向量,其中輸入句子用表示,表示每個詞與實體對的相對位置的向量;
采用維的從ELMo詞嵌入預訓練模型得到的詞向量,ELMo模型根據上下文推斷出每個詞對應的詞向量;對于多義詞加入了前后詞的上下文理解;
所述預訓練模型的訓練方法采用隨機梯度下降法訓練,關鍵詞注意力機制使用交叉熵損失函數進行計算,所述損失函數的定義如以下公式所示:
;
其中,是訓練數據集的大小,是數據集中的第i個樣本,采用AdaDelta優化器來最小化loss函數計算參數;
在損失函數中加入L2正則化以防止過擬合,,是正則化的超參數;第二個正則化器試圖強制預訓練模型處理真正重要的單詞,并返回稀疏的權重分布;最終目標函數如以下等式所示:
;
所述步驟三多頭注意力機制通過輸入層輸出的詞向量序列構建序列的對稱相似性矩陣;
所述多頭注意力機制包括:給定密鑰K、查詢Q和值V作為輸入,相當于詞嵌入向量,輸出結果是一個具有輸入句子上下文信息的特征序列;其中,關注模塊將執行關注h次,計算過程如以下公式所示:
;
;
;
其中,,?,?,?是線性變換的可學習參數,是按比例計算和串聯時按比例放縮點積注意力的輸出,,?,?分別表示第i個頭的查詢、鍵和值;
所述步驟四Bi-GRU網絡層用于獲取多頭注意力層輸出序列的上下文信息;在信息提取的任務中,RNN是使用最多的模型;LSTM相對于RNN引入了長期記憶和門結構,緩解RNN長期去依賴性的問題,但同時也增加模型的計算量;而GRU則進一步優化LSTM,只保留new?gate和reset?gate兩個門操作;
將GRU單元對的處理記為,獲得用于計算上下文單詞表示的等式如以下公式所示:
;
;
;
Bi-GRU的輸入是多頭注意力層的輸出,逐級輸入到網絡中;將每一時間步中的前向GRU網絡隱藏狀態,與后向GRU網絡隱藏狀態進行并聯,其中為GRU網絡單元隱藏狀態的維度,用表示每一個詞的隱藏狀態向量,并用箭頭表示方向;
所述步驟五關鍵詞注意力機制用于對隱藏層向量進行軟選擇,為一組標量的線性組合,權值用來表示預訓練模型對句子中某個詞的關注程度,取值在0到1之間;
為每個詞引入一個二元狀態變量z,當z為0時,表示對應的詞與關系分類無關,如果z為1,則表示對應的詞是句子中關系表達所需的詞;每個句子都有對應的二元狀態變量序列Z;隱藏狀態的期望值N為對應詞被選中的概率,關鍵詞注意力權重計算方法如以下公式所示:
;
引入CRF來計算隱藏序列的權重序列,推導出,代表輸入序列,代表第i個詞的GRU的隱藏輸出;?CRF為一個概率框架,用于計算序列與序列之間的條件概率;
CRF定義在給定的情況下一系列條件概率,如以下公式所示:
;
;
其中,表示二元狀態變量z的集合,是規范化常數,表示單個集合c給出的z的子集,是該集合的潛在函數,用以下等式表示:
;
使用兩種特征函數進行計算,頂點特征函數和邊緣特征函數;表示GRU的輸出h到二元狀態變量z的映射,而是用于模擬兩個狀態變量在相鄰時間步長的轉換函數,分別如以下公式所示:
;
;
;
其中,和?為線性變換的可學習參數,b為偏置項;將句子中的上下文信息映射成每個狀態變量的特征分數,所述特征分數利用句子中的實體對相對位置特征以及關鍵詞特征,實體對特征,和實體隱藏相似度特征和來計算;
(1)實體對相對位置特征
實體對相對位置特征,用于通過與隱藏層的輸出量的連接來共同重新表示上下文信息以及實體位置關系;其中,;位置嵌入與詞嵌入類似,通過嵌入矩陣將相對位置標量轉化為向量;其中L為最大句長,為位置向量的維度;
(2)實體隱藏相似度特征
根據實體與其隱藏向量的相似性對實體進行分類;實體隱藏相似度特征計算過程如以下公式所示:
其中,是在勢向量空間中構造的一個勢向量,用來表示相似實體的類;K是實體按其隱藏相似性分類的類數;第j個實體的實體隱藏相似度特征是根據第j個實體與隱藏層的輸出的相似度加權計算出來的;實體特征是通過對實體位置和實體對的潛在類型表示對應的隱藏狀態進行級聯構建;
所述步驟六分類層,包括:
計算狀態變量的輸出分布的概率p,在注意力層之后添加softmax層,計算過程如以下公式所示:
;
其中,是偏差項,是關系類別的數量,將隱藏狀態的期望值N映射到關系標簽的特征分數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110261757.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種富水地區橋梁的轉體施工方法
- 下一篇:一種加氫站高壓氫氣防振防松連接裝置





