[發明專利]一種基于深度強化學習的智能電動汽車漂移入庫控制方法有效
| 申請號: | 202011530836.4 | 申請日: | 2020-12-22 |
| 公開(公告)號: | CN112590774B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 冷搏;劉銘;熊璐;余卓平 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | B60W30/06 | 分類號: | B60W30/06;B60W50/00 |
| 代理公司: | 上??剖⒅R產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 智能 電動汽車 漂移 入庫 控制 方法 | ||
1.一種基于深度強化學習的智能電動汽車漂移入庫控制方法,其特征在于,包括以下步驟:
1)構建用于深度強化學習的車輛動力學模型以及輪胎力飽和工況下的輪胎模型,車輛動力學模型具體為考慮前后與左右載荷轉移的四輪三自由度車輛動力學模型,所述的三自由度包括車輛質心處速度vm、質心側偏角β和橫擺角速度ω,四輪三自由度車輛動力學模型中,考慮縱側向加速度的四輪垂向力的表達式為:
式中,hm為質心高度,bf、br為前、后輪距,ax、ay為質心處不考慮車身旋轉影響的縱、側向加速度,FzFL、FzFR、FzRL、FzRR分別為左前、右前、左后、右后車輪的垂向力,m為電動汽車質量,g為重力加速度,l為軸距,lf、lr為前、后軸到質心的距離,FxFL、FxFR、FxRL、FxRR分別為左前、右前、左后、右后車輪的縱向力,FyFL、FyFR、FyRL、FyRR分別為左前、右前、左后、右后車輪的側向力,δ為前輪轉角;
在漂移過程中,考慮到載荷轉移過大導致某一個車輪離地,出現使得該車輪的垂向載荷降為0、載荷轉移達到上限的情況,當方向盤向左轉漂移,載荷向右側轉移,左后輪離地時,則左后輪的垂向力為0,此時,根據縱側向加速度、軸距和輪距將過多轉移的載荷重新分配至左前輪和右后輪,則有:
ΔFtrans=|FzRL|
F′zRL=0
其中,ΔFtrans為過多轉移的載荷,F′zRL為分配后左后輪的垂向力,F′zRR為分配后右后輪的垂向力,F′zFL為分配后左前輪的垂向力;
對考慮前后與左右載荷轉移的四輪三自由度車輛動力學模型進行受力分析,得到車輛動力學平衡方程為:
φ=β+ψ
據此計算得到車輛縱向車速vmx和側向車速vmy,則有:
vmx=vm·cosβ
vmy=vm·sinβ
其中,為車輛質心處速度的變化率,為質心側偏角速度,φ為質心處車速全局方位角,為質心處車速全局方位角速度,為橫擺角速度的變化率,ψ為車頭全局方位角,Iz為橫擺轉動慣量,vx為車輛縱向車速,vy為車輛側向車速;
用于深度強化學習訓練的輪胎模型包括前輪輪胎力模型和后輪輪胎力模型,對于后輪輪胎力模型,在漂移過程中,后輪制動抱死并在路面上純摩擦,后輪的輪胎力方向與車輪輪心瞬時速度的方向相反,通過對后輪進行受力分析得到后輪縱側向輪胎力分量的表達式為:
對于左后輪:
對于右后輪:
Fr_sat=μ1Fz
其中,vxRL、vyRL分別為左后輪輪心處縱、側向速度,vxRR、vyRR分別為右后輪輪心處縱、側向速度,λL、λR分別為左、右后輪輪心側偏角,FxRL、FyRL分別為左后輪縱、側向力,FxRR、FyRR分別為右后輪縱、側向力,FrRL_sat、FrRR_sat分別為左、右后輪水平飽和輪胎力,Fr_sat表示對應車輪水平飽和輪胎力,μ1為車輪抱死時路面利用附著系數,Fz表示對應車輪的垂向力;
對于前輪輪胎力模型,在漂移過程中,前輪輪胎力尚未飽和,則采用改進Burckhardt輪胎模型對輪胎力進行擬合,用以表述側向力與側偏角的關系,則有:
其中,θ1~θ5為擬合參數,α為前輪側偏角;
左輪側偏角αL和右輪側偏角αR可通過以下公式求得:
由于前輪未施加制動力和驅動力,處于自由滾動狀態,有FxFL=0,FxFR=0,在確定前輪輪胎力方向時僅考慮側向力,則前輪輪胎力方向垂直于輪胎平面,由前輪轉向角決定;
2)采用面向漂移入庫控制的TD3算法實現智能電動汽車漂移入庫,具體包括以下步驟:
21)設計面向漂移入庫控制的TD3算法,構建Actor網絡和Critic網絡,具體為:
Critic網絡和Actor網絡均為由全連接層組成的BP神經網絡,Critic網絡的輸入為車輛狀態和動作,輸出為Q值,Actor網絡的輸入為車輛狀態,輸出為動作,所述的車輛狀態為表征漂移過程車輛狀態的參數,包括以車輛質心為原點,車頭朝向為y軸正方向的相對坐標系下庫位坐標(ex、ey)和庫位朝向車輛質心處速度vm、質心側偏角β以及橫擺角速度ω,所述的動作為方向盤轉角;
22)構建獎勵函數r(k),則有:
其中,wx、wy、分別為ex、ey和的權重,k為時間;
23)對Actor網絡和Critic網絡進行訓練,并據此完成智能電動汽車漂移入庫,對Actor網絡和Critic網絡進行訓練前,先確定漂移入庫控制器的邊界,根據該邊界對每次車輛漂移的目標庫位位置進行隨機取值,在迭代訓練中,車輛以隨機選取的目標庫位位置和朝向計算車輛狀態,并據此對Critic網絡和Actor網絡進行訓練,通過在訓練過程中隨機更新目標庫位位置,拓展訓練數據集,提升化能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011530836.4/1.html,轉載請聲明來源鉆瓜專利網。





