[發明專利]一種改進深度強化學習的智能汽車類人跟馳行為控制方法在審
| 申請號: | 202211445665.4 | 申請日: | 2022-11-18 |
| 公開(公告)號: | CN115830863A | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 趙健;李思遠;朱冰;宋東鑒 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G08G1/01 | 分類號: | G08G1/01;G06N3/045;G06N3/08;B60W60/00 |
| 代理公司: | 長春市恒譽專利代理事務所(普通合伙) 22212 | 代理人: | 梁紫鉞 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 深度 強化 學習 智能 汽車 行為 控制 方法 | ||
1.一種改進深度強化學習的智能汽車類人跟馳行為控制方法,其特征在于:包括以下步驟:
第一步、采集真實駕駛員跟馳行駛時的制動踏板和油門踏板開度數據、與前車的距離數據、自車的速度數據及前車的速度數據;
第二步、獲得真實駕駛員跟馳行為數據集的離散制動踏板和油門踏板開度的動作概率分布p;
第三步,構建跟馳行為策略模型,包括:
步驟1:構建DDPG跟馳行為策略模型的狀態輸入;模型的狀態空間S以自車與前車的間距s_rel、自車的速度v0、前車的速度vf作為狀態空間的輸入:
S={s_rel,v0,vf}
步驟2:構建跟馳行為策略模型的復合獎勵函數r:
r=w1·r1+w2·r2
r1為相似獎勵函數,r2為多目標獎勵函數,w1為相似獎勵函數的權重,w2為多目標獎勵函數的權重,w1+w2=1,w1>0,w2>0;
步驟3:構建獎勵評估器T(R):
根據建立的多目標獎勵函數r2的表達式,分別計算真實駕駛員跟馳行為的制動踏板或油門踏板開度的動作的平均獎勵值R2與當前深度強化學習策略給出的動作的平均獎勵R'2,當R'2≥R2時,減小w1的值,增大w2的值;
步驟4:構建DDPG框架,包括:構建DDPG的Actor網絡μ(ω1)及其目標網絡target Actor網絡構建DDPG的Critic網絡及其目標網絡target Critic網絡ω1、為神經網絡參數;Actor網絡μ(ω1)根據當前的狀態,輸出一個制動踏板或油門踏板開度動作;
步驟5:建立Replaybuffer經驗回放緩存區;
將狀態-動作-獎勵-狀態轉移的四元組{st,at,r2,t,st+1}存入Replaybuffer經驗回放緩存區中,直至Replaybuffer經驗回放緩存區收集N0個狀態-動作-獎勵-狀態轉移的四元組{st,at,r2,t,st+1},其中下標t為時間步,st代表t時刻的狀態,at代表t時刻做出的動作,r2,t代表t時刻多目標獎勵函數給出的獎勵,st+1代表下一個時間t+1的狀態;
第四步,訓練模型,包括:
步驟1:從Replaybuffer經驗回放緩存區中采樣n個四元組{si,ai,r2,i,si+1}i=1,....n,下標i表示該四元組是第i個被采樣的四元組;
步驟2:計算DDPG網絡給出的離散制動踏板或油門踏板開度的動作概率分布q;
步驟3:計算所有采樣的四元組的相似獎勵函數r1;
步驟4:計算每個四元組的復合獎勵函數ri;
步驟5:對每個元組,用目標網絡target Critic網絡計算預測價值;
步驟6:更新當前的Actor網絡和當前的Critic網絡;
步驟7:獎勵評估器T(R)計算真實駕駛員跟馳行為的制動踏板或油門踏板開度的動作的平均獎勵值R2,與當前深度強化學習策略給出的動作的平均獎勵R′2;
步驟8:更新目標網絡;
重復上述步驟,直至訓練收斂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211445665.4/1.html,轉載請聲明來源鉆瓜專利網。





