[發明專利]基于GP與PPO實現連續性動作決策的智能決策方法和系統有效
| 申請號: | 202210404484.0 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114647986B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 方文其;吳冠霖;葛品;平洋;欒紹童;戴迎楓;繆正元;沈源源;金新竹 | 申請(專利權)人: | 南湖實驗室 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N5/01;G06N20/00 |
| 代理公司: | 浙江永鼎律師事務所 33233 | 代理人: | 張曉英 |
| 地址: | 314000 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 gp ppo 實現 連續性 動作 決策 智能 方法 系統 | ||
本發明公開了一種基于GP與PPO實現連續性動作決策的智能決策方法和系統,包括世界模型、策略模型和經驗池,由世界模型生成的模擬經驗被存入所述的經驗池,所述的世界模型為基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用經驗池中的模擬經驗進行強化學習。提出了基于GP的Dyna?PPO方法,將Dyna?Q框架中的DQN算法替換為優化后的PPO算法,改進后的框架具有無模型DRL、基于模型DRL兩種方案優勢的同時能夠被用于解決連續性動作的決策問題,從而實現基于Dyna?框架的連續性動作決策。
技術領域
本發明屬于智能決策領域,尤其是涉及一種基于GP與PPO實現連續性動作決策的智能決策方法和系統。
背景技術
決策問題場景復雜、多變,不但存在像手勢指令這樣的離散型動作問題,同樣存在像飛機車輛控制決策等連續性動作問題。但是目前更多的研究都局限于離散動作空間的情形,本申請人此前的研究(已申請專利:CN113392956B、CN112989017B、CN112989016B)闡述了基于GP的Dyna-Q方法,同樣更多地局限于離散動作空間的情形,雖然動作空間也可以進行離散化處理,但是,一旦增大離散空間的維數,很容易遇到收斂困難的問題,而這將顯著破壞決策方法的訓練優勢和性能優勢。
自動駕駛是連續性決策的典型應用場景,基于規則和基于學習的方法是完成自動駕駛任務的兩種主要方法。基于規則的方法通常是手動設計的,可以快速實現其功能,但該方法對未知情況的泛化能力很差,無法應付高可變性場景。基于學習的方法主要是基于DRL(深度強化學習)的方法,該方法使用深度神經網絡將感知狀態映射到車輛動作中,在過去關于自動駕駛的DRL研究中,主要有基于無模型方法的DRL方法和基于模型的DRL方法,但是,無模型?DRL方法通常需要花費大量時間在訓練上,通過反復試錯學得經驗,學習效率很低;基于模型的?DRL方法如果無法從數據中學習到足夠準確的模型,就很難達到需要的效果,而算法與未知環境交互過程中所記錄的數據往往存在大量無用信息,選擇合適的經驗很困難,此外,創建驗證動態模型也依賴于專業知識。
Dyna-Q框架結合了上述兩種方法的優點,是一個很好的可行性方法,但是,Dyna-Q框架本身無法很好地處理連續性動作問題,而且Dyna-Q?框架僅限于在數據級別集成學習和規劃。此外,由于經驗池中的低質量數據,大量的規劃步長會在充分訓練后對學習造成損害,盡管能夠通過設計判別模塊來避免這種情況,但在效率和準確性方面仍然不能令人滿意。
基于Dyna-Q框架結合了上述兩種方法優點的背景基礎,本方案試圖在Dyna-Q框架基礎上發展能夠處理連續性動作問題的方法。
發明內容
本發明的目的是針對上述問題,提供一種基于GP與PPO實現連續性動作決策的智能決策方法和系統。
為達到上述目的,本發明采用了下列技術方案:
一種用于實現連續性動作決策的智能決策系統,包括世界模型、策略模型和經驗池,由世界模型生成的模擬經驗被存入所述的經驗池,所述的世界模型為基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用經驗池中的模擬經驗進行強化學習。
在上述用于實現連續性動作決策的智能決策系統中,所述的策略模型包括策略損失函數,以及值函數損失函數和/或熵損失函數。
在上述用于實現連續性動作決策的智能決策系統中,所述策略模型的損失函數為:
???(1)
其中,為策略損失函數,表示值函數損失函數,為高斯分布的熵損失函數,是權重值。
在上述用于實現連續性動作決策的智能決策系統中,策略損失函數包括:
??(2)
表示求平均值,表示取小的值,表示新舊策略變化比例,表示PPO算法的優勢函數,表示截斷函數,是截斷系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南湖實驗室,未經南湖實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210404484.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種抗炎醫用無紡布
- 下一篇:一種雙金屬包覆冶金覆合的裝置及方法





