[發明專利]一種車輛列隊跟蹤控制方法、裝置及計算機可讀存儲介質有效

申請號：	202110402251.2	申請日：	2021-04-14
公開（公告）號：	CN113140104B	公開（公告）日：	2022-06-21
發明（設計）人：	褚端峰;徐峻偉;吳超仲;陸麗萍	申請（專利權）人：	武漢理工大學
主分類號：	G08G1/00	分類號：	G08G1/00;G06N3/00
代理公司：	武漢智嘉聯合知識產權代理事務所(普通合伙) 42231	代理人：	陳建軍
地址：	430070 湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種車輛列隊跟蹤控制方法裝置計算機可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種車輛列隊跟蹤控制方法，其特征在于，包括以下步驟：

獲取自車、前車及領航車的狀態誤差向量，根據所述自車、前車及領航車的狀態誤差向量建立DDPG的策略網絡和價值網絡；

利用粒子群算法對DDPG的策略網絡和價值網絡進行訓練，得到訓練完備的DDPG網絡；

根據所述自車、前車、領航車的狀態誤差向量及訓練完備的DDPG網絡獲取車輛動作值，根據所述車輛動作值確定決策控制器的輸出控制量，根據所述輸出控制量確定車輛的節氣門開度；

根據所述自車、前車及領航車的狀態誤差向量建立DDPG的策略網絡，具體包括：在DDPG策略網絡的輸入層輸入自車、前車及領航車的狀態誤差向量，所述DDPG策略網絡包括若干個全連接層，所述DDPG策略網絡的輸出層輸出車輛動作值；

根據所述自車、前車及領航車的狀態誤差向量建立DDPG的價值網絡，具體包括：在所述DDPG價值網絡的輸入層輸入自車、前車及領航車的狀態誤差向量，經過第一個全連接層后，所述自車、前車、領航車的狀態誤差向量與所述車輛動作值共同輸入至第二個全連接層，DDPG價值網絡的輸出層輸出執行最優動作評判標準值；

利用粒子群算法對DDPG的策略網絡和價值網絡進行訓練，具體包括：

確定粒子群算法的種群數量、粒子維數，初始化粒子位置及速度，對粒子群每個粒子進行更新迭代，獲取DDPG的最優連接權重，利用所述最優連接權重對DDPG的策略網絡和價值網絡進行訓練；

所述對粒子群每個粒子進行更新迭代，獲取DDPG的最優連接權重，具體包括：改進慣性權重因子，根據改進的慣性因子，對粒子群每個粒子進行更新迭代，獲取DDPG的最優連接權重，所述改進的慣性因子為

ω＝m+hlog_T(T-t-1)

其中，m為慣性權重因子ω的收斂值，h0，T為最大迭代次數，t為當前迭代次數；

利用所述最優連接權重對DDPG的策略網絡和價值網絡進行訓練，具體包括：價值網絡采用基于執行最優動作評判標準值的確定性策略梯度進行梯度更新，策略網絡根據損失函數進行梯度更新，并利用所述最優連接權重對DDPG的策略網絡和價值網絡進行訓練；

所述損失函數的獎勵值為R＝R₁+R₂+R₃+R₄，其中，R₂＝-ω₁|v₂-v₃|，R₃＝ω₂(|Δx_t-1|-|Δx_t|)-ω₃|Δx_t|，x₂、x₃分別為前車與自車的縱向坐標，L_safe為前車與自車靜止時應保持的最小車間距，ω₁是速度誤差的權重，v₂-v₃是自車與前車速度誤差，ω₂是t-1時刻與t時刻兩車間距誤差變化量的權重，ω₃是t時刻自車與前車間距誤差的權重，Δx_t是t時刻自車與前車的間距，Δx_t-1是t-1時刻自車與前車的間距，ω₄為自車加速度權重，|a|為受控車的控制器輸出；

根據所述車輛動作值確定決策控制器的輸出控制量，根據所述輸出控制量確定車輛的節氣門開度，具體包括：根據所述車輛動作值確定決策控制器的輸出控制量，根據所述輸出控制量及車輛節氣門開度公式確定車輛的節氣門開度，所述車輛節氣門開度公式為u_throttle＝u_throttle,f+u_throttle,b，u_throttle,f為車輛發動機期望扭矩與理論扭矩之比，u_throttle,b為確定決策控制器的輸出控制量，對于前車，u_throttle,b＝u_throttle,b2，

u_throttle.b2＝k_d(a₁-a₂)+k_p(v₁-v₂)+k_i(x₁-x₂-hv₂-L)，對于自車，u_throttle,b＝u_throttle,b3，