[發明專利]一種基于混合行為空間的強化學習方法在審
| 申請號: | 202010965008.7 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN112183762A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 粟銳;張偉楠;俞勇 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 行為 空間 強化 學習方法 | ||
本發明公開了一種基于混合行為空間的強化學習方法,涉及強化學習領域,由多個共同作用輸出結構化的行為的并行Actor網絡和一個指導Actor網絡訓練的Critic網絡組成。Actor網絡包括狀態編碼網絡、離散Actor網絡、連續參數Actor網絡,狀態編碼網絡對狀態進行編碼,輸入到離散Actor網絡和連續參數Actor網絡,離散Actor網絡用于產生離散動作,連續參數Actor網絡用于產生離散動作對應的連續化參數。本發明可以處理既有連續化動作也有離散動作的混合行為空間,并且可以拓展到所有有層次化結構的行為空間中。本發明能取得比之前對于混合行為空間處理方法更優的強化學習結果,既不損失行為的精確度,也通過mask操作避免了過參數化的問題。
技術領域
本發明涉及強化學習領域,尤其涉及一種基于混合行為空間的強化學習方法。
背景技術
強化學習中復雜策略的表示及學習,是指在強化學習中,當策略比較復雜時,如何對策略進行表示并端對端進行學習的問題。本發明主要針對混合行為空間的問題,即行為即有離散選擇的部分,也有連續化參數的部分,比如在自動駕駛任務中,涉及到這一步應該打方向盤還是剎車,這是離散的動作選擇,如果打方向盤,對應的角度是多少,這是連續值的動作選擇?,F在的強化學習算法大多針對于純離散的行為空間或者純連續的行為空間,對于混合行為空間的算法研究很少。
分析近期基于混合行為空間的強化學習的研究:
Sherstov and Stone等在2005年的International Symposium on Abstraction,Reformulation,and Approximation的194-205頁發表的論文Function approximationvia tile coding:Automating parameter choice中提出把混合行為中的連續空間離散化,進而平層化為離散行為空間的,并使用離散行為空間對應的強化學習算法的方式。這樣的做法會損失一定的精確度,并且最后可能會得到一個很大的離散行為空間,不利于學習。
Hausknecht and Stone在2016年International Conference on LearningRepresentations會議上發表的Deep reinforcement learning in parameterizedaction space提出將混合行為空間松弛為連續空間的方式,使用Deep DeterministicPolicy Gradient的算法,在Actor網絡的輸出的實數向量的前幾維做Softmax操作選擇一個離散動作,后面的維度作為連續化參數。這樣的方式增加了行為空間的復雜性,并且增加的Softmax操作會導致DDPG算法梯度往回傳導的時候不可導的問題。
Masson等人在2016年的AAAI會議上發表的Reinforcement learning withparameterized actions一文中首次提出了參數化行為空間的概念,本發明就是在此基礎上拓展的強化學習算法。
Jiechao Xiong等人2018年在arXiv上發布的文章Parametrized deep q-networks learning:Reinforcement learning with discrete-continuous hybridaction space提出了參數化深度Q網絡(Parameterized Deep Q-Network),可以看作是DQN和DDPG算法的結合,一個網絡用于選擇所有離散動作對應的連續化參數,另一個網絡用于輸出所有離散動作的Q值。但是在更新過程中,目標是最大化所有Q值而不是最大的Q值,會導致過參數化,引起一些不必要的訓練。
對國內外的相關研究分析可以得出以下結論:目前在混合行為空間的強化學習算法上,已有的方法都存在一些漏洞,比如損失精確度,缺少理論支持,過參數化等等,目前還沒有提出一種相對完善和通用的針對混合行為空間的強化學習算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010965008.7/2.html,轉載請聲明來源鉆瓜專利網。





