[發(fā)明專利]一種基于深度強化學習的時間序列分類方法在審
| 申請?zhí)枺?/td> | 201911070579.8 | 申請日: | 2019-11-05 |
| 公開(公告)號: | CN110826624A | 公開(公告)日: | 2020-02-21 |
| 發(fā)明(設計)人: | 楊尚明;劉勇國;李巧勤;劉朗;任志揚;陳智 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都正華專利代理事務所(普通合伙) 51229 | 代理人: | 陳選中 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 時間 序列 分類 方法 | ||
本發(fā)明公開了一種基于深度強化學習的時間序列分類方法,包括以下步驟:采集若干時間序列,獲取樣本數據,并對樣本數據進行預處理;構建深度殘差網絡,根據預處理后的樣本數據,并通過深度強化學習方法對深度殘差網絡進行更新;將待測試的時間序列輸入更新完成的深度殘差網絡,得到時間序列的分類結果。本發(fā)明通過將樣本打亂順序輸入深度強化學習網絡,使其更具魯棒性,設置獎勵和懲罰的方式尋找時間序列分類的最優(yōu)策略,擁有高的分類準確度。
技術領域
本發(fā)明屬于時間序列分類領域,具體涉及一種基于深度強化學習的時間序列分類方法。
背景技術
隨著傳感技術、監(jiān)測技術的提高,我們的日常生活不斷產生時間序列數據,如股票價格、天氣讀數、生物觀測、健康監(jiān)測數據等。在大數據時代,越來越需要從時間序列數據中提取知識,其中一個主要任務是時間序列分類,即通過已有時間序列數據預測其對應的類別標簽。現有絕大多數的時間序列分類方法可以分為基于距離的方法和基于特征的方法。但是現有的時間序列分類方法的計算復雜度較高,且時間序列的分類決策精度不高。
發(fā)明內容
針對現有技術中的上述不足,本發(fā)明提供的一種基于深度強化學習的時間序列分類方法解決了現有技術存在的問題。
為了達到上述發(fā)明目的,本發(fā)明采用的技術方案為:一種基于深度強化學習的時間序列分類方法,包括以下步驟:
S1、采集若干時間序列,獲取樣本數據,并對樣本數據進行預處理;
S2、構建深度殘差網絡,根據預處理后的樣本數據,通過深度強化學習方法對深度殘差網絡進行更新;
S3、將待測試的時間序列輸入更新完成的深度殘差網絡,得到時間序列的分類結果。
進一步地,所述步驟S1中采集的時間序列為X,X={x1,...,xt,...,xT},所述樣本數據為D={(X1,y1),...,(Xi,yi),...,(XN,yN)};
其中,xt表示t時刻的觀測值,t=1,2,...,T,T表示觀測值總數,Xi表示樣本,i=1,2,...,N,N表示樣本總數,yi表示樣本標簽。
進一步地,所述步驟S1中預處理的具體方法為:采用線性函數歸一化方法對樣本數據進行線性變化;
所述線性函數Xi*為:
其中,Xi表示樣本數據中的時間序列樣本,i=1,2,...,N,N表示樣本總數,Xmin表示樣本數據中的最小值,Xmax表示樣本數據中的最大值。
進一步地,所述步驟S2的分步驟包括:
S2.1、構建深度殘差網絡,并隨機抽取一條預處理過后的樣本數據輸入深度殘差網絡;
S2.2、通過深度殘差網絡獲取當前Q值,根據當前Q值對樣本數據中時間序列選取分類動作,得到分類結果;
S2.3、根據樣本標簽和分類結果建立獎勵函數,并判斷樣本標簽和分類結果是否一致,若是則通過獎勵函數向深度殘差網絡發(fā)送正獎勵,否則通過獎勵函數向深度殘差網絡發(fā)送負獎勵;
S2.4、根據真實的分類結果,生成與深度殘差網絡結構相同的模擬深度殘差網絡,并通過模擬深度殘差網絡生成目標Q值;
S2.5、根據當前Q值和目標Q值,對深度殘差網絡和模擬深度殘差網絡進行更新;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911070579.8/2.html,轉載請聲明來源鉆瓜專利網。





