[發(fā)明專利]一種基于多智能體強化學習的自動駕駛協(xié)同決策方法在審

申請?zhí)枺?/td>	202210507951.2	申請日：	2022-05-10
公開（公告）號：	CN114839992A	公開（公告）日：	2022-08-02
發(fā)明（設計）人：	陳夢園;周桐;歐明輝	申請（專利權）人：	重慶工程職業(yè)技術學院
主分類號：	G05D1/02	分類號：	G05D1/02
代理公司：	重慶鼎慧峰合知識產(chǎn)權代理事務所(普通合伙) 50236	代理人：	李晉
地址：	402260 重***	國省代碼：	重慶;50
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于智能強化學習自動駕駛協(xié)同決策方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于多智能體強化學習的自動駕駛協(xié)同決策方法，其特征在于，包括：

建立模擬仿真環(huán)境；所述模擬仿真環(huán)境中包括若干個自動駕駛車輛；

獲取各所述自動駕駛車輛的狀態(tài)信息；

根據(jù)各所述狀態(tài)信息構建自動駕駛協(xié)同決策模型；

根據(jù)所述自動駕駛協(xié)同決策模型控制車輛的駕駛。

2.根據(jù)權利要求1所述的方法，其特征在于，所述模擬仿真環(huán)境設置有慣性坐標系，獲取各所述自動駕駛車輛的狀態(tài)信息，包括：

獲取各所述自動駕駛車輛的觀測量；所述觀測量包括所述自動駕駛車輛在慣性坐標系中的縱向位置、自動駕駛車輛在慣性坐標系中的橫向位置、自動駕駛車輛的縱向速度、自動駕駛車輛的橫向速度和自動駕駛車輛的航向角；

獲取各所述自動駕駛車輛的動作量；所述動作量包括自動駕駛車輛的縱向加速度和自動駕駛車輛的前輪轉角。

3.根據(jù)權利要求2所述的方法，其特征在于，根據(jù)各所述狀態(tài)信息構建自動駕駛協(xié)同決策模型，包括：

重復執(zhí)行自動駕駛仿真操作，直到車輛策略網(wǎng)絡的損失函數(shù)收斂；在車輛策略網(wǎng)絡的損失函數(shù)收斂的情況下，將當前車輛策略網(wǎng)絡確定為自動駕駛協(xié)同決策模型；

所述自動駕駛仿真操作包括：

將各所述觀測量輸入車輛策略網(wǎng)絡，獲得各所述自動駕駛車輛的動作量；

在各所述自動駕駛車輛執(zhí)行所述動作量的情況下，根據(jù)動力學模型獲得各所述自動駕駛車輛的備選觀測量；

將各所述自動駕駛車輛的備選觀測量作為觀測量；

根據(jù)各所述觀測量和各所述動作量獲取所述車輛策略網(wǎng)絡的損失函數(shù)；

在滿足迭代終止條件的情況下，初始化模擬仿真環(huán)境。

4.根據(jù)權利要求3所述的方法，其特征在于，所述動力學模型包括：

其中，為車輛縱向速度的變化率，r為車輛橫擺角速度，v為車輛橫向速度，a_x為車輛縱向加速度，m為車輛總質量，為車輛橫向速度的變化率，u為車輛縱向速度，C_f為車輛前軸側偏剛度，δ為車輛前輪轉角，l_f為車輛質心到前軸的距離，C_r為車輛后軸側偏剛度，l_r為車輛質心到后軸的距離，I_z為車輛橫擺角慣量，為車輛橫擺角速度的變化率，為車輛質心橫坐標的變化率，為車輛質心縱坐標的變化率，X為車輛質心在慣性坐標系下的橫坐標，Y為車輛質心在慣性坐標系下的縱坐標，ψ為車輛的航向角，ψ為車輛航向角的變化率。

5.根據(jù)權利要求4所述的方法，其特征在于，根據(jù)各所述觀測量和各所述動作量獲取所述車輛策略網(wǎng)絡的損失函數(shù)，包括：

通過計算L_a(θ_i)＝Q_i(o_i,A_i；ω_i)+Q_g(S,A；β)獲得第i輛車的車輛策略網(wǎng)絡的損失函數(shù)；其中，Q_i(o_i,A_i；ω_i)為第i輛車的局部價值網(wǎng)絡，o_i為第i輛車的觀測量，A_i為第i輛車的動作量，ω_i為第i輛車的局部價值網(wǎng)絡參數(shù)，Q_g(S,A；β)為當前全局價值網(wǎng)絡，S為當前觀測量集合，A為當前動作量集合，β為當前全局價值網(wǎng)絡參數(shù)，i為正整數(shù)。