[發明專利]基于優勝劣汰的深度強化學習策略網絡存儲方法及設備在審
| 申請號: | 202010320186.4 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111582495A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 趙江;李明君;蔡志浩;王英勛 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京航智知識產權代理事務所(普通合伙) 11668 | 代理人: | 陳磊;張楨 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 優勝劣汰 深度 強化 學習 策略 網絡 存儲 方法 設備 | ||
一種基于優勝劣汰的深度強化學習策略網絡的存儲方法,該方法包括:獲取當前訓練周期的結果和策略網絡;判斷所述當前訓練周期的結果是否滿足策略網絡測試要求;在判斷所述當前訓練周期的結果滿足所述策略網絡測試要求的情況下,進行策略網絡測試;獲得該策略網絡測試的結果;判斷所述策略網絡測試的結果是否滿足保存要求;在判斷所述策略網絡測試的結果滿足保存要求的情況下,保存所述策略網絡以及所述策略網絡測試的結果。
技術領域
本發明涉及一種深度強化學習的策略網絡的存儲方法,更具體地涉及一種基于優勝劣汰的在深度強化學習訓練時挑選訓練過程中最優的策略網絡并存儲的方法和設備。
背景技術
深度強化學習是機器學習中的一個分支,融合了深度學習與強化學習,較好的解決了從低層次的感知到高層次的決策問題。深度強化學習的過程可以理解為通過深度學習的感知能力獲取環境的信息,再通過強化學習使得智能體具有一定的決策能力。強化學習算法理論的形成可以追溯到上個世界七八十年代,幾十年來強化學習算法一直在不斷的更新迭代。與常見的監督學習、無監督學習不同,強化學習的本質是一種以環境反饋作為輸入的、適應環境的機器學習方法。它模仿了自然界中人類或動物學習的基本途徑,通過與環境不斷交互和試錯的過程,利用評價性的反饋信號來優化所采取的行為決策。
在深度強化學習中有兩個主要的組成部,為智能體(Agent)和環境(Environment)。智能體是指采用深度強化學習進行學習的事物本身,可以通過學習而自動獲取有價值信息的計算機(或者含有計算機的機器),環境是指智能體所依賴并活動、交互的世界。在每一次智能體與環境相交互的過程中,智能體會觀察當前時刻自身在環境中所呈現的狀態(State),或者部分狀態,并以此為依據來決定自身在當前時刻所應該采取的行為(Action)。同時,在每一次智能體與環境交互的過程中,智能體會從環境中接受到一個反饋信息,這里稱為獎勵(Reward)。獎勵是用一個具體的數值來表示,它會告訴智能體,當前時刻其在環境的狀態表現是有多好或者有多糟糕。智能體的學習目標是為了獲得最大的累計獎勵,這里稱為回報(Return)。深度強化學習就是一種在智能體與環境不斷的信息交互中使得智能體學習如何采取行為來達到它目標的一種方法。深度強化學習的原理如圖1所示。
深度強化學習算法的目標是使得智能體學習到最優的策略,從而最大化智能體在單次周期內獲得的累計獎勵,即回報。形象來說,策略相當于智能體的大腦,控制智能體的行為,充當智能體的控制器。策略本質上是一組帶參數的可計算函數,最常用的是帶有權重參數和偏置參數的神經網絡。這里用符號π表示智能體的策略,用符號θ來表示策略中的參數,用符號πθ整體表示帶參數的智能體策略。策略的輸出是智能體的行為,通過梯度下降算法來調整策略的參數,以此來改變智能體采取的行為。
智能體在單次周期內獲得的回報為:
其中T表示單次周期內的總時刻數,t表示單次周期內智能體與環境進行交互的一段完整軌跡,可以用智能體的狀態-行為序列來表示:
s0,a0,L,sT-1,aT-1,sT
rt表示在t時刻智能體獲得的回報值。st表示智能體在t時刻的狀態,at表示智能體在t時刻采取的行為。R(t)表示單次周期內,智能體經歷交互的軌跡t獲得的回報。
深度強化學習的目標用數學的形式表示可以為:
其中E[R(t)]代表R(t)的期望值,t:πθ代表智能體與環境進行交互所得到的軌跡依賴于當前智能體的策略πθ。J(πθ)代表深度強化學習的目標函數,即依賴于πθ的期望回報值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010320186.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于石墨烯和狄拉克半金屬的全介質吸波器
- 下一篇:一種高可靠深井地震計





