[發明專利]一種獨立化長短期記憶網絡模型的構建方法在審
| 申請號: | 201810583664.3 | 申請日: | 2018-06-07 |
| 公開(公告)號: | CN109086864A | 公開(公告)日: | 2018-12-25 |
| 發明(設計)人: | 莊連生;李厚強;唐明宇;楊健 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 李坤 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 記憶網絡 構建 初始化 后向 更新 傳播 優化 | ||
本公開提供了一種獨立化長短期記憶網絡模型的構建方法,包括:步驟S101:初始化獨立化長短期記憶網絡模型的參數;步驟S201:對獨立化長短期記憶網絡模型進行更新;步驟S301:利用梯度后向傳播優化獨立化長短期記憶網絡模型。
技術領域
本公開涉及屬于人工智能領域,尤其涉及一種獨立化長短期記憶網絡模型的構建方法。
背景技術
在深度學習領域,時序數據分析的關鍵在于建立不同時刻時序數據之間的聯系。現有時序數據分析一般采用循環神經網絡(RNN)及其變種(如LSTM),通過將當前時刻的數據輸出作為下一時刻的額外輸入,以此建立起不同時刻時序數據之間的聯系,進而實現神經網絡的記憶功能。然而,現有循環神經網絡模型對歷史信息的記憶能力嚴重不足,主要表現在:只能建立短時間內序列數據之間的關聯性,無法建立相距較遠序列數據之間的關聯性。為此,本發明構建了一種新型的循環神經網絡結構,實現超長時序數據記憶能力。
與本發明密切相關的神經網絡模型是長短期記憶網絡模型(LSTM)。該模型通過制定門結構使得時序信息能夠在時間上傳遞得更久,從而實現記憶功能。但是,LSTM僅僅是減緩的梯度的后向傳遞問題,將原有的梯度矩陣連乘轉化為一系列矩陣的加和,但是加和分量中依然包含了大量矩陣的連乘。在應用記憶模塊進行數據更新的時候,傳統的結構使用了矩陣乘法以確保信息之間的相互影響,但是該做法在處理長序列時容易產生梯度爆炸、梯度消失等問題。
公開內容
(一)要解決的技術問題
為了解決上述問題,本公開提出一種獨立化長短期記憶網絡模型的構建方法。
(二)技術方案
本公開提供了一種獨立化長短期記憶網絡模型的構建方法,包括:步驟S101:初始化獨立化長短期記憶網絡模型的參數;步驟S201:對獨立化長短期記憶網絡模型進行更新;步驟S301:利用梯度后向傳播優化獨立化長短期記憶網絡模型。
在本公開的一些實施例中,所述步驟S201包括:子步驟S201a:將時間序列輸入獨立化長短期記憶網絡模型;子步驟S201b:根據時間序列和記憶模塊更新輸入門;子步驟S201c:根據時間序列和記憶模塊更新遺忘門;子步驟S201d:更新記憶模塊;子步驟S201e:根據時間序列和記憶模塊更新輸出門;子步驟S201f:更新輸出。
在本公開的一些實施例中,所述更新輸入門的表達式為:
其中,it表示時間步t的輸入門;σ表示飽和的激活函數;表示向量間的元素對應乘法;xt表示時間序列中的第t個輸入向量;ct-1表示時間步t-1的記憶模塊;Wxi表示輸入向量與輸入門之間的參數矩陣;Wci表示記憶模塊與輸入門之間的參數矩陣。
在本公開的一些實施例中,所述更新遺忘門的表達式為:
其中,ft表示時間步t的遺忘門;Wxf表示輸入向量與遺忘門之間的參數矩陣;Wcf表示記憶模塊與遺忘門之間的參數矩陣;σ表示飽和的激活函數;表示向量間的元素對應乘法;xt表示時間序列中的第t個輸入向量;ct-1表示時間步t-1的記憶模塊。
在本公開的一些實施例中,所述更新記憶模塊的表達式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810583664.3/2.html,轉載請聲明來源鉆瓜專利網。





