[發明專利]考慮前方障礙物影響的大型營運車輛防側翻駕駛決策方法在審
| 申請號: | 202210157766.5 | 申請日: | 2022-02-21 |
| 公開(公告)號: | CN114379540A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 李旭;胡瑋明;孔棟;胡悅;徐啟敏 | 申請(專利權)人: | 東南大學 |
| 主分類號: | B60W30/04 | 分類號: | B60W30/04 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 許小莉 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 考慮 前方 障礙物 影響 大型 營運 車輛 防側翻 駕駛 決策 方法 | ||
1.一種考慮前方障礙物影響的大型營運車輛防側翻駕駛決策方法;首先,明確側翻主動防控決策方法適用的交通場景;其次,利用傳感器采集車輛的運動狀態信息;最后,將側翻主動防控決策問題建模為馬爾科夫決策過程,利用標準的策略梯度算法建立大型營運車輛的側翻主動防控決策模型,得到不同行駛工況下的防側翻駕駛策略;其特征在于:
步驟一:明確防側翻駕駛決策方法適用的交通場景
大型營運車輛,即自車C0行駛在多車道的高等級公路,其所在車道的前方存在交通參與者,即前車C1;當自車進行制動、變道或經過彎道時,為了保障行車安全,應有效、及時地為駕駛員提供決策策略包括,制動減速、轉向;
多車道是指車道的數量大于等于3;前車是指位于自車C0行駛道路前方,且位于同一車道線內、行駛方向相同、距離最近的車輛;
步驟二:建立大型營運車輛的防側翻駕駛決策模型
采用標準的策略梯度算法,并基于步驟一所述的交通場景,建立防側翻駕駛決策模型,研究前方障礙物存在情況下的營運車輛防側翻駕駛策略;具體包括以下4個子步驟:
子步驟1:定義防側翻駕駛決策模型的基礎參數
考慮到大型營運車輛的未來運動狀態同時受當前運動狀態和當前動作影響,將防側翻駕駛決策問題建模為馬爾科夫決策過程,并對模型的基礎參數進行定義:t時刻的狀態空間St、t+1時刻的狀態空間St+1、t時刻的動作空間At以及動作空間At對應的回報值Rt;具體地:
(1)定義狀態空間
大型營運車輛的側傾穩定性不僅與車輛自身的運動狀態有關,還與道路狀態有關;因此,利用車輛運動狀態信息定義狀態空間:
St=[vlon,vhor,alon,ahor,ωyaw,θroll,θswa,δbrake,δthr,Lf,Drel] (1)
其中,vlon,vhor分別表示大型營運車輛的縱向、橫向速度,單位均為米每秒;alon,ahor分別表示縱向、側向加速度,單位均為米每二次方秒,通過厘米級高精度組合導航系統測量獲得;ωyaw,θroll分別表示橫擺角速度和側傾角,單位分別為弧度每秒、度,通過MEMS陀螺儀測量獲得;θswa為車輛的方向盤轉角,單位為度,δbrake,δthr分別表示制動踏板開度和節氣門開度,單位均為百分數,通過讀取車身CAN總線信息獲得;Lf為板簧壓力橫向轉移率,通過壓力傳感器測量的車軸鋼板彈簧所受壓力計算獲得,Drel表示自車與前車的相對距離,單位為米,通過毫米波雷達采集獲得;
(2)定義動作空間
將方向盤轉角和制動踏板開度作為控制量,定義決策模型輸出的駕駛策略,即t時刻的動作空間At=[θswa_out,δbrake_out];
其中,θswa_out表示歸一化后的方向盤轉角控制量,范圍為[-1,1],δbrake_out表示歸一化后的制動踏板開度,范圍為[0,1];當δbrake=0時,表示車輛未進行制動,當δbrake=1時,表示車輛以最大制動減速度進行制動;
(3)定義獎勵函數
將獎勵函數設計為:
Rt=δ1·r1(t)+δ2·r2(t)+r3(t) (2)
式中,Rt為t時刻的總獎勵函數,r1(t),r2(t),r3(t)分別表示防側翻獎勵函數、防追尾獎勵函數和懲罰函數;δ1,δ2分別表示防側翻獎勵函數的權重系數和防追尾獎勵函數的權重系數;
考慮到利用單個側翻表征參數估計側翻風險缺乏準確性的問題,綜合考慮側傾角、側向加速度和板簧壓力橫向載荷轉移率3個表征參數對側翻的影響,建立防側翻獎勵函數r1(t):
式中,athr,θthr,Lthr分別表示預設的側向加速度閾值、側傾角閾值和板簧壓力橫向轉移率閾值,μ1表示獎勵函數r1(t)的權重系數;
為了降低執行防側翻駕駛策略過程中的安全隱患,在防側翻決策過程中,大型營運車輛應避免與前方障礙物發生碰撞;為此,建立前向防撞獎勵函數r2(t):
r2(t)=μ2|Drel-Dsafe| (4)
式中,Dsafe表示自車與前車的安全距離,μ2表示獎勵函數r2(t)的權重系數;
考慮到合理的安全距離,應同時兼顧通行效率和行車安全;為此,采用可變車頭時距作為自動駕駛營運車輛的最小安全距離Dw;
Dw=vlonτ+vforT+Lmin (5)
式中,τ表示車間時距,單位為秒,vfor表示前方車輛的速度,單位為米每秒,Lmin表示臨界距離,單位為米;
為了糾正駕駛決策過程中的錯誤策略,建立懲罰函數r3(t):
r3(t)=-Spen (6)
式中,Spen為懲罰值,取Spen=200,表示若車輛發生側翻或追尾事故,決策模型會得到-200的懲罰;
子步驟2:設計防側翻駕駛決策模型的網絡架構
利用Actor-Critic框架搭建防側翻駕駛決策模型,包括Actor網絡和Critic網絡兩部分;其中,Actor網絡將狀態空間St作為輸入,并對特征向量進行回歸,從而輸出連續動作At;Critic網絡將狀態空間St和動作At作為輸入,從而評估當前“狀態-動作”的價值;
為Actor和Critic網絡構建結構相同的三層全連接網絡,三層網絡的激活函數均為線性整流函數,其表達式為:f(x)=max(0,x);
步驟三:訓練防側翻駕駛決策模型
對防側翻駕駛決策模型中的參數進行訓練,具體步驟包括:
子步驟1:初始化策略函數的參數θ0和值函數的參數φ0;
子步驟2:對策略函數和值函數的參數進行迭代更新,每一次迭代包括子步驟2.1至子步驟2.6,具體地:
子步驟2.1:在環境中執行策略πk=π(θk),搜集軌跡的集合Dk={τi};
子步驟2.2:計算后續折扣獎勵值
子步驟2.3:基于當前的值函數將時序差分算法作為優勢函數的估計量,計算優勢函數的估計值;
子步驟2.4:估計策略梯度;
子步驟2.5:計算策略的更新;
子步驟2.6:擬合值函數;
子步驟3:按照子步驟1和子步驟2提供的方法進行迭代更新,使防側翻駕駛決策模型逐漸收斂;在訓練過程中,若車輛發生側翻或碰撞,則終止當前回合并開始新的回合進行訓練;當迭代達到最大次數或大型營運車輛利用模型輸出的決策策略穩定有效地實現防側翻時,表示迭代完成;
最后,將大型營運車輛的運動狀態信息輸入到已訓練的防側翻駕駛決策模型中,可以在線輸出防側翻駕駛決策策略,實現了有效、可靠的大型營運車輛防側翻駕駛決策。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210157766.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有支鏈的羧酸電解質及其制備方法
- 下一篇:一種自動智能懸灸儀





