[發明專利]一種基于樣本排序的深度強化學習隨機采樣方法在審
| 申請號: | 202310277221.2 | 申請日: | 2023-03-21 |
| 公開(公告)號: | CN116341378A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 魏俊鋒;孔燕 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06F18/214;G06N3/04;G06N3/08;G06F111/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 樣本 排序 深度 強化 學習 隨機 采樣 方法 | ||
1.一種基于樣本排序的深度強化學習隨機采樣方法,其特征在于,包括以下步驟:
步驟1、智能體與稀疏獎勵環境進行交互,形成軌跡樣本數據集存入經驗池;
步驟2、對經驗池中無獎勵值的樣本數據和含有獎勵值的樣本數據的進行標記;
步驟3、對經驗池中的樣本進行隨機采樣,并且生成圖結構;
步驟4、將圖結構的樣本根據標記,并按照每個子圖從后往前將樣本進行優先級排序;
步驟5、利用DQN算法對計算Q值的神經網絡進行更新,學習最優策略。
2.根據權利要求1所述的一種基于樣本排序的深度強化學習隨機采樣方法,其特征在于,所述步驟1具體為:
步驟1.1、針對樣本數據存入一個經驗回放池中;
步驟1.2、對經驗池Di設定空間大小,當經驗池存儲滿了之后,以新替舊,不斷更新經驗池。
3.根據權利要求1所述的一種基于樣本排序的深度強化學習隨機采樣方法,其特征在于,所述步驟2具體為:
步驟2.1、對樣本無獎勵值的數據標記為“0”,對含有獎勵值的樣本數據標記為“1”,獎勵函數的公式如下:
式中,sT為在最后時刻T下的狀態。
步驟2.2、在訓練樣本的過程中,將訓練過的樣本標記更改為“1”,公式如下:
式中,r為獎勵函數,st+1為在t+1時刻下的狀態,δ為非0時表示樣本被訓練過,當δ為0時表示樣本未被訓練。
4.根據權利要求1所述的一種基于樣本排序的深度強化學習隨機采樣方法,其特征在于,所述步驟3具體為:
步驟3.1、防止算法過擬合,在經驗池中隨機采樣一批樣本數據;
步驟3.2、將采樣到的數據進行圖結構轉化,根據每個樣本中的(s,s·)的關系,對每條樣本進行銜接轉化為圖結構;
步驟3.3、對所生成的圖結構標識出各子圖。
5.根據權利要求1所述的一種基于樣本排序的深度強化學習隨機采樣方法,其特征在于,所述步驟4具體為:
步驟4.1、對每個子圖從后往前進行識別樣本標記ρ;
步驟4.2、按照每個子圖順序由后往向前從有標記處開始對樣本進行排序,其中將被排序到的樣本進行標識修改。
6.根據權利要求1所述的一種基于樣本排序的深度強化學習隨機采樣方法,其特征在于,所述步驟5具體為:利用DQN算法對網絡進行更新,公式如下:
Qnew(st,at)←(1-α)*Q(st,at)+α(r+γ*maxaQ(st+1,a))
式中,st為智能體在t時刻的狀態,at為智能體在st狀態下執行的動作,α為學習率,γ為折扣因子,Q為衡量狀態st執行動作at的優良值。
7.一種計算機存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1-6中任一項所述的一種基于樣本排序的深度強化學習隨機采樣方法。
8.一種計算機設備,包括儲存器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1-6中任一項所述的一種基于樣本排序的深度強化學習隨機采樣方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310277221.2/1.html,轉載請聲明來源鉆瓜專利網。





