[發明專利]一種基于指導學習的深度強化學習車輛隊列控制方法在審
| 申請號: | 202211623780.6 | 申請日: | 2022-12-16 |
| 公開(公告)號: | CN116088502A | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 陳建忠;吳曉寶;許智赫;呂澤凱;王文杰 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 西安凱多思知識產權代理事務所(普通合伙) 61290 | 代理人: | 劉濤 |
| 地址: | 71007*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 指導 學習 深度 強化 車輛 隊列 控制 方法 | ||
1.一種基于指導學習的深度強化學習車輛隊列控制方法,其特征在于,包括以下步驟:
步驟1:由N輛智能網聯車輛組成一個車輛隊列,隊列中車輛的動力學模型描述如下:
其中,i=0,1,...,N表示第i輛車;x0(t)和v0(t)分別表示領航車的位置和速度,ades_0(t)表示領航車的加速度,其變化由人為給定;xi(t)、vi(t)和ades_i(t),i=1,...,N分別是車輛隊列中第i輛跟隨車的位置、速度和期望加速度,其中跟隨車的期望加速度是強化學習智能體決策過程中的動作輸出;aactual_i(t)表示車輛的實際加速度,τ車輛發動機的時間常數;
步驟2:構建車輛隊列系統環境;
車輛間的相對距離dreal_i由前車的實際位置減去本車的實際位置獲得:
dreal_i=xi-1(t)-xi(t)??????????????????????????????(2)
定義車輛間預期間距為dsafe_i:
dsafe_i=Ddefault+vego_i*tgap???????????????????????????(3)
其中Ddefault是車輛靜止時的間距,vego_i是本車速度,tgap是車頭時距;
定義間距誤差derr_i為:
derr_i=dsafe_i-dreal_i?????????????????????????????(4)
跟隨車輛的期望速度vdes_i按如下定義:如果derr_i大于零,即dreal_i小于dsafe_i,后車的期望速度vdes_i給定為其前車速度vego_i-1和設定速度vset二者中的最小值,則后車和前車保持一定的安全距離;如果dreal_i大于dsafe_i,后車的期望速度vdes_i則給定為設定速度vset,即:
速度誤差定義如下:
verr_i=vdes_i-vego_i?????????????????????????????(6)
步驟3:設計基于指導的深度強化學習算法;
步驟3-1:指導器的設計;
引入自適應巡航控制模型作為強化學習智能體訓練的指導器,包括速度控制模式和間距控制模式;
對于第i輛跟隨車,在速度控制模式下,智能網聯車輛的期望加速度如下:
avc_i=Kv*(vtar_i-vego_i)?????????????????????????????(7)
其中,Kv為速度控制增益,vtar_i是第i輛跟隨車的期望速度;
間距控制模式下,第i輛跟隨車的期望加速度由下式給出:
asc_i=Kv*vpf_i-Kd*derr_i????????????????????????????(8)
其中,Kd為間距的控制增益;vpf_i=vego_i-1-vego_i是本車和前車的速度差值;
綜合考慮自適應巡航控制模型的速度控制和間距控制,給出最終第i輛跟隨車的期望加速度如下:
步驟3-2:深度確定性策略梯度DDPG算法;
DDPG算法使用四個人工神經網絡,分別是:Actor網絡、Critic網絡、Actor目標網絡、Critic目標網絡來近似行為策略函數和目標策略函數;
Actor網絡用于近似行為策略μ,通過決策網絡參數θμ進行參數化的Actor網絡的輸出為:
at=μ(st|θμ)???????????????????????????????(10)
其中,st表示當前狀態,θμ表示在策略μ下的Actor網絡參數,μ(st|θμ)表示在網絡參數θμ條件下,智能體在當前狀態st的決策輸出;
基于OU過程,DDPG算法在動作輸出上加入高斯噪聲:
式中,Nt表示動作探索的噪聲;
Critic網絡參數化為θQ,用于近似值函數:
經驗池中存放的數據格式為:(st,at,rt,st+1),rt表示智能體決策后的即時獎勵,st+1表示智能體決策后轉移到的狀態;從經驗池中抽取小批量數據對以上的四個網絡進行訓練更新參數;Critic網絡按照以下的損失函數進行參數更新:
yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ')????????????????????(13)
其中,yi表示目標回報值,ri表示當前狀態下的即時獎勵,γ表示折扣因子,si+1表示當前狀態的下一個狀態,θμ′是目標策略網絡參數,θQ′是目標價值網絡參數,μ'(si+1|θμ')表示目標輸出動作,Q'(si+1,μ'(si+1|θμ')|θQ')表示目標動作價值;
根據預期目標J的梯度,對Actor網絡進行更新,為:
其中,表示動作值函數對動作的梯度,表示策略μ對策略網絡參數θμ的梯度;
在Actor網絡和Critic網絡的參數更新之后對相應的兩個目標網絡的參數按照公式(16)進行軟更新:
其中,τ是軟更新參數;
步驟3-3:設計動作合成器:
引入自適應巡航控制模型作為強化學習智能體訓練的指導器,并設計動作合成器,將強化學習智能體的動作輸出和指導器的輸出進行融合,其融合機制如下式所示:
uS(t)=λ*uC(t)+(1-λ)*uA(t)????????????????????????(17)
其中,uS(t)=(as_1,as_2,...)T是融合之后的動作值向量,uC(t)=(ac_1,ac_2,...)T是指導器的輸出向量,uA(t)=(aA_1,aA_2,...)T是強化學習智能體的決策動作向量,λ是權重值;
步驟4:設計基于指導的深度強化學習算法的動作空間、狀態空間以及獎勵函數;
動作空間列向量定義為A=(aA_1,aA_2,...,aA_i,...,λ)T,其中aA_i分別是N-1輛跟隨車的輸出加速度;
對系統中的N-1輛跟隨車分別選取三個狀態觀測輸入;對于第i輛跟隨車,選取本車速度vego_i、與前車的速度誤差verr_i以及速度誤差的積分∫verr_i作為第i輛跟隨車的狀態觀測;在系統狀態觀測中添加指導器的輸出值ac_i和智能體決策動作值aA_i的差值aE_i,即aE_i=ac_i-aA_i;整個系統狀態觀測向量為s:
從穩定性、舒適性、跟車效率三個方面選取車輛的速度誤差verr_i、間距誤差derr_i、本車加速度aA_i指標設計系統的獎勵函數;
步驟5:整定表1中的算法訓練超參數,訓練基于指導學習的DDPG智能體輸出最優控制策略;
表1:DDPG算法訓練超參數
2.根據權利要求1所述的一種基于指導學習的深度強化學習車輛隊列控制方法,其特征在于,所述τ=0.001。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211623780.6/1.html,轉載請聲明來源鉆瓜專利網。





