[發明專利]一種LSTM神經網絡訓練方法及裝置有效
| 申請號: | 201910863211.0 | 申請日: | 2019-09-12 |
| 公開(公告)號: | CN110782002B | 公開(公告)日: | 2022-04-05 |
| 發明(設計)人: | 曾理;王純斌;藍科 | 申請(專利權)人: | 成都四方偉業軟件股份有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F40/289;G06F40/295 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 lstm 神經網絡 訓練 方法 裝置 | ||
本發明公開了一種LSTM神經網絡訓練方法及裝置,本發明的目的在于提供一種基于文本感知聚焦機制的長短時記憶網絡訓練方法。該發明將人類感知事物時對關鍵信息形成聚焦,給予更多注意力權重的機理用于神經網絡模型訓練;將詞向量模式應用于文本中實體關系、事件等關鍵信息,計算實體向量和事件向量,對訓練數據進行實體增強、關系增強和事件增強,在不改變網絡結構的前提下,增加訓練數據中關鍵信息的比重,從而獲得更加適用于訓練數據的網絡參數,提升LSTM神經網絡性能。
技術領域
本發明涉及自然語言處理和人工智能領域,特別涉及一種LSTM神經網絡訓練方法及裝置。
背景技術
深度學習技術作為人工智能“連接主義”學派的代表,近年來在語音、視覺、自然語言處理等領域取得了令人矚目的成就,并已在互聯網、安防、教育、醫療、工業制造等行業實現了落地。
人類產生的數據中包含大量時間序列,如語音信號、音頻信號、文本、金融數據、設備日志等,這些數據存在時間維度上的前后關系。卷積神經網絡RNN(Recurrent NeuralNetwork)因此被發明,通過將每時刻的隱藏狀態傳遞給下一時刻來“記憶”之前的信息,進而獲得對時序數據進行學習的能力。目前,基于RNN神經網絡已出現了語音識別、機器翻譯、樂曲生成、文本生成、情感分析、DNA序列分析、視頻行為識別、命名實體識別、文本分類等多個應用。然而,對于較長的時序數據,逐層的記憶傳遞會因為參數矩陣的譜范數以及激活函數導數的累乘而出現疾速下降,出現“梯度消失”,最終無法保留長時間的信息。
在RNN網絡的基礎上,Hochreater和Schmidhuber等學者提出了長短時記憶網絡LSTM(Long Short Time Memory),通過精心設計和訓練的門函數來控制每個時刻的記憶進入后續單元的比例來保證長期記憶的不丟失。定量分析可以認為,LSTM將反向傳播的梯度計算由聯乘變為了求和,從而降低了傳播誤差大幅下降的概率,有效解決了“梯度消失”問題。由于LSTM包含遺忘門、輸入門和輸出門,每個門都需要對相應的參數矩陣進行訓練,導致計算開銷過大,Cho等提出了門控單元網絡GRU,將三個門減少至兩個,在保持網絡性能的前提下降低了網絡訓練的計算量。進一步地,研究發現數據的輸入順序可能導致網絡訓練結果的改變。在此基礎上又提出了雙向長短時記憶網絡Bi-LSTM。因此,當前所指采用循環神經網絡實現的應用一般指基于LSTM網絡及其變體。
近兩年的研究進一步發現,人類對于信息的獲取并非按照順序或者反序依次處理的方式,而會對部分重要信息產生更高級別的關注,最終獲得對全部信息的理解。Google在2017年提出了注意力(Attention)機制,將上述生理規律轉換為編碼器和解碼器之間映射的權重表示,取得了較好的效果。然而基于注意力機制的Transformer模型結構復雜,訓練計算開銷極大。
發明內容
本發明的目的在于:提供了一種LSTM神經網絡訓練方法及裝置,解決了在自然語言處理中,基于注意力機制的Transformer模型結構復雜,訓練計算開銷極大的問題。
本發明采用的技術方案如下:
一種LSTM神經網絡訓練方法,包括由無標注文本生成的訓練數據,將無標注文本中的關鍵詞處理后根據關鍵詞對訓練數據進行加權,提升訓練數據對特征信息的攜帶能力,將加權后的訓練數據用于LSTM神經網絡訓練。本發明借鑒人類在獲取信息時對關鍵位置或者詞語形成注意力聚焦的生理學基礎,結合長短時記憶網絡LSTM,提出了一種不改變模型結構的模型訓練方法,通過改變訓練數據中關鍵信息的權重,獲得性能更好的模型訓練結果。
進一步的,所述由無標注文本生成的訓練數據,將無標注文本中的關鍵詞處理后根據關鍵詞對訓練數據進行加權,提升訓練數據對特征信息的攜帶能力,將加權后的訓練數據用于LSTM神經網絡訓練的方法包括以下步驟:
S1、將無標注文本作為訓練文本,對訓練文本進行預處理;
S2、對預處理后的訓練文本進行識別,生成訓練文本的關鍵詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都四方偉業軟件股份有限公司,未經成都四方偉業軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910863211.0/2.html,轉載請聲明來源鉆瓜專利網。





