[發明專利]一種基于樣本排序的深度強化學習隨機采樣方法在審
| 申請號: | 202310277221.2 | 申請日: | 2023-03-21 |
| 公開(公告)號: | CN116341378A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 魏俊鋒;孔燕 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06F18/214;G06N3/04;G06N3/08;G06F111/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 樣本 排序 深度 強化 學習 隨機 采樣 方法 | ||
本發明公開了一種基于樣本排序的深度強化學習隨機采樣方法,步驟如下:智能體與稀疏獎勵環境進行交互,形成軌跡樣本數據集存入經驗池;對經驗池中的樣本數據進行標記;對經驗池中的樣本進行隨機采樣,并且生成圖結構;將圖結構的樣本根據標記,并按照每個子圖從后往前將樣本進行優先級排序;利用DQN算法對網絡進行更新。本發明為強化學習中的稀疏獎勵對樣本的利用效率不高提供了解決方案,能夠更好地提升深度強化學習算法性能,為強化學習算法解決現實世界問題的發展提供了有效的理論基礎;本發明提出的對隨機采樣的樣本進行圖結構轉化,能夠更直接地體現每個樣本之間的聯系,并且利用它們之間的聯系使得每個樣本在訓練的過程中發揮充分。
技術領域
本發明涉及深度強化學習中稀疏獎勵環境問題,特別是一種基于樣本排序的深度強化學習隨機采樣方法。
背景技術
自從人工智能在圍棋方面打敗了韓國冠軍選手后,強化學習受到了研究人員的極大關注。強化學習本質上為智能體與環境進行交互,通過環境反饋到的獎勵進行訓練智能體,能夠讓智能體在特定問題中由“新手”轉變為“專家”。現如今,盡管大量的研究人員開發出優秀的強化學習算法,但是面對許多現實世界中的問題時,強化學習算法無法很好地完成任務。主要原因是對于現實世界中的問題,其環境過于復雜,并且任務過于困難(如機器人、自動駕駛),從而導致獎勵函數難以設計,通常只能從智能體是否能完成任務的標準去定義獎勵函數,此所謂強化學習中的稀疏獎勵。
在稀疏獎勵的背景下,提升強化學習算法中樣本的利用率的性能成為了近些年研究的潮流,例如,通過改變對樣本采樣的概率來提高樣本利用率和訓練速度;通過設置樣本的優劣來設定樣本的優先級;還可以在失敗的經驗中學習有用的信息,從無獎勵樣本變為有獎勵樣本等等。但是這些方案往往未考慮到隨機采樣的樣本先后訓練會極大地影響訓練效果,由于稀疏獎勵的樣本只有最后才有獎勵值,所以只有從后往前進行訓練,才能發揮每個樣本的效用,否則導致浪費大量的訓練時間。
發明內容
發明目的:本發明的目的是提供一種基于樣本排序的深度強化學習隨機采樣方法,從而使得每個樣本都得到充分地利用,更科學地提升強化學習算法在稀疏獎勵環境中的性能,推進對強化學習稀疏獎勵問題的研究。
技術方案:本發明所述的一種基于樣本排序的深度強化學習隨機采樣方法,包括以下步驟:
步驟1、智能體與稀疏獎勵環境進行交互,形成軌跡樣本數據集存入經驗池。
步驟1.1、針對樣本數據存入一個經驗回放池中。
步驟1.2、對經驗池Di設定空間大小,當經驗池存儲滿了之后,以新替舊,不斷更新經驗池。
步驟2、對經驗池中無獎勵值的樣本數據和含有獎勵值的樣本數據進行標記。
步驟2.1、對樣本無獎勵值的數據標記為“0”,對含有獎勵值的樣本數據標記為“1”,獎勵函數的公式如下:
式中,sT為在最后時刻T下的狀態。
步驟2.2、在訓練樣本的過程中,將訓練過的樣本標記更改為“1”,公式如下:
式中,r為獎勵函數,st+1為在t+1時刻下的狀態,δ為非0時表示樣本被訓練過,當δ為0時表示樣本未被訓練。
步驟3、對經驗池中的樣本進行隨機采樣,并且生成圖結構。
步驟3.1、防止算法過擬合,在經驗池中隨機采樣一批樣本數據。
步驟3.2、將采樣到的數據進行圖結構轉化,根據每個樣本中的(s,s·)的關系,對每條樣本進行銜接轉化為圖結構。
步驟3.3、對所生成的圖結構標識出各子圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310277221.2/2.html,轉載請聲明來源鉆瓜專利網。





