[發(fā)明專利]基于優(yōu)勝劣汰的深度強化學習策略網(wǎng)絡存儲方法及設備在審
| 申請?zhí)枺?/td> | 202010320186.4 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111582495A | 公開(公告)日: | 2020-08-25 |
| 發(fā)明(設計)人: | 趙江;李明君;蔡志浩;王英勛 | 申請(專利權(quán))人: | 北京航空航天大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京航智知識產(chǎn)權(quán)代理事務所(普通合伙) 11668 | 代理人: | 陳磊;張楨 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 優(yōu)勝劣汰 深度 強化 學習 策略 網(wǎng)絡 存儲 方法 設備 | ||
1.一種基于優(yōu)勝劣汰的深度強化學習策略網(wǎng)絡的存儲方法,該方法包括:
獲取當前訓練周期的結(jié)果和策略網(wǎng)絡;
判斷所述當前訓練周期的結(jié)果是否滿足策略網(wǎng)絡測試要求;
在判斷所述當前訓練周期的結(jié)果滿足所述策略網(wǎng)絡測試要求的情況下,進行策略網(wǎng)絡測試;
獲得該策略網(wǎng)絡測試的結(jié)果;
判斷所述策略網(wǎng)絡測試的結(jié)果是否滿足保存要求;和
在判斷所述策略網(wǎng)絡測試的結(jié)果滿足保存要求的情況下,保存所述策略網(wǎng)絡以及所述策略網(wǎng)絡測試的結(jié)果。
2.如權(quán)利要求1所述的方法,其中所述獲取當前訓練周期的結(jié)果的步驟包括獲取當前訓練周期的累計獎勵值。
3.如權(quán)利要求2所述的方法,其中所述判斷當前訓練周期的結(jié)果是否滿足策略網(wǎng)絡測試要求的步驟包括:
預設可接受的單周期累計獎勵閾值;
比較所述當前訓練周期的累計獎勵值與該預設可接受的單周期累計獎勵閾值;和
通過所述比較步驟確定當前訓練周期的累計獎勵值是否滿足策略網(wǎng)絡測試要求。
4.如權(quán)利要求1所述的方法,其中所述在判斷所述當前訓練周期的結(jié)果滿足所述策略網(wǎng)絡測試要求的情況下進行策略網(wǎng)絡測試的步驟包括:
設定周期數(shù);
以當前策略網(wǎng)絡運行所設定的周期數(shù);和
獲得將當前策略網(wǎng)絡運行所述設定周期數(shù)的累計獎勵均值作為該策略網(wǎng)絡測試的結(jié)果。
5.如權(quán)利要求4所述的方法,其中所述判斷所述策略網(wǎng)絡測試的結(jié)果是否滿足保存要求的步驟包括:
設定可保存測試累計獎勵閾值;
比較所述累計獎勵均值與所述可保存測試累計獎勵閾值;和
通過所述比較步驟確定所述策略網(wǎng)絡測試的結(jié)果是否滿足所述保存要求。
6.如權(quán)利要求5所述的方法,其中所述在判斷所述策略網(wǎng)絡測試的結(jié)果滿足保存要求的情況下,保存所述策略網(wǎng)絡以及所述策略網(wǎng)絡測試的結(jié)果的步驟包括:
獲得所述策略網(wǎng)絡測試的結(jié)果滿足保存要求的信息;
保存所述策略網(wǎng)絡;和
保存所述累計獎勵均值并以該所述累計獎勵均值替代所述可保存測試累計獎勵閾值。
7.如權(quán)利要求1所述的方法,其中在所述獲取當前訓練周期的結(jié)果和策略網(wǎng)絡的步驟之前還包括:
設定訓練過程循環(huán)周期數(shù)目與每周期環(huán)境模型交互次數(shù);
隨機初始化策略網(wǎng)絡;
隨機初始化智能體狀態(tài);
以設定的交互次數(shù)進行智能體與環(huán)境交互;和
在訓練循環(huán)所設定的周期數(shù)目之后,在滿足策略網(wǎng)絡更新條件的情況下對策略網(wǎng)絡進行更新迭代,從而得到當前訓練周期的結(jié)果和策略網(wǎng)絡。
8.一種設備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器運行所述計算機程序時執(zhí)行權(quán)利要求1-7中任一項所述的基于優(yōu)勝劣汰的深度強化學習策略網(wǎng)絡的存儲方法。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學,未經(jīng)北京航空航天大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010320186.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





