[發明專利]基于部分可觀測遷移強化學習的自動駕駛決策方法及系統有效
| 申請號: | 201911373375.1 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111026127B | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 章宗長;俞揚;周志華;王藝深;蔣俊鵬 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 部分 觀測 遷移 強化 學習 自動 駕駛 決策 方法 系統 | ||
1.一種基于部分可觀測遷移強化學習的自動駕駛決策方法,其特征在于,包括如下步驟:
S1、基于虛擬環境數據庫提供的環境模型,情景單元使用強化學習算法得到相應的駕駛策略接著,情景單元將駕駛策略集合擴展為駕駛方案集合最后,情景單元輸出的駕駛方案集合將被添加到駕駛方案數據庫中;
S2、在決策單元中,初始化Q值網絡Q(x,o;θ)、終止網絡β(x,o;θβ)及相應的目標網絡Q(x,o;θ-)和把從駕駛方案數據庫中選擇的駕駛方案集合Π={o1,…,oi,…,on}視為動作集合A;
S3、在時刻t,感知單元將觀測xt輸入到決策單元的Q值網絡中;隨后,Q值網絡輸出駕駛方案oi的Q值Q(xt,oi;θ),其中i={1,2,…,n};
S4、在決策單元中,使用最大熵Mellowmax算法將駕駛方案oi的Q值Q(xt,oi;θ)轉換為概率值Pi;此階段將輸出概率分布{P1,…,Pi,…,Pn};其中i={1,2,…,n};
S5、決策單元將基于S4得到的概率分布選出駕駛方案oi={Ii,πi,β(x,oi;θβ)};然后,動作規劃單元將根據駕駛方案oi中的策略πi,決定在觀測xt下智能體要執行的動作at;接著,控制單元將動作at轉換成控制信號,改變車輛的行駛狀態;最后,感知單元會將獎勵rt和下一個觀測xt+1反饋給智能體;將(xt,at,rt,xt+1)看作是一個經驗元組,存放到回放池中;
S6、在決策單元中,從回放池中隨機抽取經驗元組(xj,aj,rj,xj+1);
S7、在決策單元中,獲得在觀測xj+1下最大Q值對應的行車方案omax和最小Q值對應的行車方案omin;
S8、在決策單元中,計算權重w;
S9、在決策單元中,使用玻爾茲曼軟最大化算法選擇目標駕駛方案otarget;
S10、在決策單元中,計算駕駛方案oi的目標值yi;
S11、在決策單元中,計算駕駛方案oi的損失Li;
S12、在決策單元中,使用梯度下降算法更新Q值網絡參數;
S13、在決策單元中,使用反向傳播算法更新終止網絡的參數;
即:
其中,i={1,2,…,n};
S14、在決策單元中,對于觀測xt+1,基于終止概率β(xt+1,oi;θβ)來判斷駕駛方案oi是否是可靠的;如果β(xt+1,oi;θβ)<η,那么就認為方案oi在路況xt+1下是可靠的,執行方案重用,即繼續使用駕駛方案oi與環境交互;如果β(xt+1,oi;θβ)≥η,那么就認為方案oi在路況xt+1下是不安全的,選擇新的駕駛方案;其中,η是安全閾值;S15、在決策單元中,每與環境進行K次交互,便將Q值網絡和終止網絡的參數賦值給對應的目標網絡;
S16、重復S4——S15,直至到達終止狀態T。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911373375.1/1.html,轉載請聲明來源鉆瓜專利網。





