[發明專利]基于帶噪聲專家示范的強化學習方法在審
| 申請號: | 202110624399.0 | 申請日: | 2021-06-04 |
| 公開(公告)號: | CN113313265A | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 黃圣君;寧鯤鵬 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 吳旭 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 噪聲 專家 示范 強化 學習方法 | ||
本發明公開了一種基于帶噪聲專家示范的強化學習方法。強化學習在各種應用中取得了巨大的成功。為了學習有效的策略,智能體通常需要與環境進行大量的交互次數來獲取數據,這會耗費大量的計算成本以及時間開銷。為了解決這一挑戰,基于示范的強化學習通過利用專家的監督信息能夠顯著的降低學習的迭代次數。然而,這些方法通常假設專家所提供的專家軌跡是完美的,從而導致學到的模型在實際應用中會被噪聲軌跡所誤導。本發明通過估計每例示范的潛在價值,在強調更有用的示范的同時過濾掉有噪聲的示范,并同時探索環境以及利用專家示范進行策略的學習,有效地學得了魯棒的智能決策模型。
技術領域
本發明屬于強化學習技術領域,具體涉及到利用專家軌跡信息來加速強化學習的相關方法。
背景技術
近幾年,強化學習(Reinforcement Leaming,簡稱RL)作為一種構建智能體進行決策的方法在多個領域上取得了顯著的進展。其目標是,然而,強化學習在取得巨大成功的同時,也暴露出了樣本利用率低、收斂速度慢等眾多問題。為了解決這類問題,一些研究者嘗試著使用專家示范來加速強化學習的訓練,簡稱RLED框架。其核心思想是強化學習算法可以通過將各種形式的先驗知識整合到學習過程中,從而節省大量的經驗。這些方法通常分為兩個步驟,首先通過監督學習的方式對專家示范進行模仿學習,接著通過與環境探索進行標注的強化學習。這些方法通常假設專家所提供的示范軌跡是完美的不含噪聲的,并且它們的最終目標是從這些示范中獲得合適的行為。然而,在大多數實際應用場景中,所提供的示范通常包含嚴重的噪聲甚至誤導信息,這會導致之前的方法在帶有噪聲的專家示范中學習到的策略與真實策略不一致,從而導致其在真實場景的表現很差。
發明內容
發明目的:為了克服現有技術中存在的不足,本發明考慮了一種更為實際的情況,即專家所提供的示范軌跡是包含噪聲的,此外本發明還提供了一種基于帶噪聲專家示范的強化學習算法,
技術方案:為實現上述目的,本發明采用的技術方案為:
基于帶噪聲專家示范的強化學習方法,包括以下步驟:
步驟1:初始化環境ε,狀態空間S,動作空間A,專家軌跡集合∑={σ1,σ2,...,σm};其中,m表示專家軌跡條數;
步驟2:初始化智能體策略πθ,隨機初始化網絡參數為θ,內存H;
步驟3:讓智能體與環境ε進行交互,將交互得到的元組(st-1,at-1,rt,st)存放到內存H中,其中st-1,st∈S分別代表時刻t-1和時刻t的狀態,at-1∈A代表時刻t-1的動作,rt表示當前動作可得到的瞬時獎賞;
步驟4:根據當前智能體策略πθ計算每個專家軌跡實例的權重
步驟5:根據與環境交互收集到的數據H以及專家所提供的示范進行梯度下降更新網絡參數θ。
進一步的,所述步驟1對環境、狀態空間、動作空間、專家軌跡集合初始化的具體方法為:
強化學習被形式化為一個馬爾可夫決策過程M,即M=(S,A,γ,P,R),其中狀態空間S是由狀態構成的集合,動作空間A是由動作構成的集合,γ∈[0,1)為折扣因子,P是狀態轉移函數,R:(S×A)→R是獎賞函數;在每個時刻t,對于狀態st∈S,智能體會根據其自身策略πθ執行動作at∈A作用于環境ε,環境會返回當前動作可得到的瞬時獎賞rt∈R以及下一個狀態st+1;即環境ε由狀態轉移函數P以及獎賞函數R構成;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110624399.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于胎壓傳感器的旋轉無線供電裝置
- 下一篇:傳動組件和機器人





