[發明專利]基于監督式DQN算法的自動駕駛汽車轉向控制方法有效
| 申請號: | 202110577276.6 | 申請日: | 2021-05-26 |
| 公開(公告)號: | CN113341960B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 汪鋒;金書峰;唐小林;張志強;彭穎 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 dqn 算法 自動 駕駛 汽車 轉向 控制 方法 | ||
1.一種基于監督式DQN算法的自動駕駛汽車轉向控制方法,其特征在于,該方法具體包括以下步驟:
S1:獲取周邊車輛狀態信息;
S2:搭建汽車運動學模型;
S3:利用DQN算法構建自動駕駛汽車轉向控制模型對車輛的轉向角進行控制,并優化Q網絡的損失函數,利用MOBIL算法構建轉向角監督信號,對DQN算法的訓練進行引導和優化;
步驟S3中,利用MOBIL算法構建轉向角監督信號,具體包括:基于MOBIL算法,選擇滿足以下條件的車道作為目標車道:
其中,為本車變道后新車道上相鄰后車的加速度,bsafe為最大減速度,為本車變道后的加速度,為本車變道前的加速度,p為禮貌系數,為本車變道前新車道上相鄰后車的加速度,為本車變道后原車道上相鄰后車的加速度,為本車變道前原車道上相鄰后車的加速度,ath為加速度閾值;
選擇目標車道后,根據比例微分控制器計算出當前狀態下的轉向角δs為:
vex,lat=-Kpdlat
其中,vex,lat為橫向期望速度,Kp為橫向增益系數,dlat為當前車道與目標車道的橫向偏移量,θex為期望航向角,θL為目標車道方向角,θ為本車航向角,為本車橫擺角速度,Kp,θ為航向角增益系數;
選擇與轉向角δs之差絕對值最小的離散轉向角值ai作為當前狀態下的轉向角監督信號As:
對DQN算法進行訓練,具體包括以下步驟:
S311:本車執行動作后,根據獎勵函數計算當前狀態S下執行該動作的獎勵值R,并根據汽車運動模型得到本車的下一狀態S′;
S312:設置經驗池用于存放本步的經驗樣本{S,A,R,S′,As},當經驗池樣本數超過經驗池容量后,最早的經驗樣本將被新的經驗樣本替換;其中,S為當前狀態,A為執行的動作,As為當前狀態下的轉向角監督信號;
S313:從經驗池中隨機抽取N個樣本進行在線Q網絡更新;
S314:每隔M步對目標Q網絡進行更新:
θQ′=θQ
其中,θQ為在線Q網絡參數,θQ′為目標Q網絡參數;
步驟S313中,對在線Q網絡的更新方式進行優化,具體包括兩個更新目標:
1)使在線Q網絡輸出的Q值逼近目標Q值;
2)使監督信號所對應的Q值盡量大,故監督式DQN算法的在線Q網絡的損失函數JQ為:
JQ=kJq+(1-k)JS
其中,k為平衡系數,Jq為傳統DQN算法在線Q網絡的損失函數:
其中:
yj=rj+γmaxQ′(sj+1;θQ′)
其中,yj為目標Q值,sj、aj、rj、sj+1為所抽取的第j個經驗樣本的當前時刻狀態、當前時刻動作、當前時刻獎勵以及下一時刻狀態,Q(sj,aj;θQ)為在線Q網絡輸出的Q值,γ為衰減系數,Q′(sj+1;θQ′)為目標Q網絡輸出的Q值;
采用梯度下降法計算傳統DQN算法在線Q網絡的更新公式:
其中,lr為Q網絡的學習率;
JS為監督部分的損失函數:
其中,為所抽取的第j個經驗樣本的當前時刻監督信號;
采用梯度上升法計算監督部分的更新公式:
故監督式DQN算法的在線Q網絡更新公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110577276.6/1.html,轉載請聲明來源鉆瓜專利網。





