[發(fā)明專利]一種基于模式切換的駕駛風(fēng)格的學(xué)習(xí)巡航控制系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201910077510.1 | 申請日: | 2019-03-01 |
| 公開(公告)號: | CN109624986B | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計)人: | 高炳釗;張羽翔;褚洪慶;郭露露;陳虹 | 申請(專利權(quán))人: | 吉林大學(xué) |
| 主分類號: | B60W40/09 | 分類號: | B60W40/09;B60W30/14 |
| 代理公司: | 長春吉大專利代理有限責(zé)任公司 22201 | 代理人: | 崔斌 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模式 切換 駕駛 風(fēng)格 學(xué)習(xí) 巡航 控制系統(tǒng) 方法 | ||
1.一種基于模式切換的駕駛風(fēng)格的學(xué)習(xí)巡航控制系統(tǒng)的控制方法,其特征在于,基于模式切換的駕駛風(fēng)格的學(xué)習(xí)巡航控制系統(tǒng)的控制方法通過控制系統(tǒng)實現(xiàn),所述系統(tǒng)包括智能感知及信號處理模塊(A)、數(shù)據(jù)存儲模塊(B)、模式切換學(xué)習(xí)模塊(C)、跟車特性學(xué)習(xí)模塊(D)和車輛執(zhí)行控制模塊(E);
所述的智能感知及信號處理模塊(A),用于獲得當(dāng)前車輛和前方車輛行駛狀態(tài)信息,對前車駕駛意圖識別,確定有限個加速度范圍;
所述數(shù)據(jù)存儲模塊(B),用于存儲駕駛員駕駛數(shù)據(jù);
所述的模式切換學(xué)習(xí)模塊(C),用于建立駕駛員馬爾科夫模式切換決策模型,離線求解狀態(tài)-動作值函數(shù)的權(quán)重向量;
所述的跟車特性學(xué)習(xí)模塊(D),用于根據(jù)駕駛員駕駛數(shù)據(jù)的跟車行為特性網(wǎng)絡(luò)進行離線訓(xùn)練,并以比例k,k=0.5-0.7更新到理想跟車特性的初始動作神經(jīng)網(wǎng)絡(luò)中;
所述的車輛執(zhí)行控制模塊(E),用于對控制量即加速度的跟蹤,采用PID控制器即可實現(xiàn)對于加速度的執(zhí)行;
所述的智能感知及信號處理模塊(A)與模式切換學(xué)習(xí)模塊(C)以及數(shù)據(jù)存儲模塊(B)相連;所述的數(shù)據(jù)存儲模塊(B)與模式切換學(xué)習(xí)模塊(C)、跟車特性學(xué)習(xí)模塊(D)相連;所述的模式切換學(xué)習(xí)模塊(C)與跟車特性學(xué)習(xí)模塊(D)相連,跟車特性學(xué)習(xí)模塊(D)與車輛執(zhí)行控制模塊(E)相連;
該方法包括以下步驟:
步驟一、通過智能感知及信號處理模塊(A)獲得車輛控制算法所需的狀態(tài)信息,包括:借助車載智能感知模塊中車載攝像頭、雷達環(huán)境感知元件確認前方待跟隨車輛,并得到當(dāng)前車輛和前方車輛行駛狀態(tài)信息;并且根據(jù)前車車速計算得到加速度,作為狀態(tài)輸入;將得到的駕駛數(shù)據(jù)存儲在數(shù)據(jù)存儲模塊(B)中;
步驟二、通過模式切換學(xué)習(xí)模塊(C)建立駕駛員馬爾科夫模式切換決策模型;基于車輛記錄的駕駛員日常駕駛數(shù)據(jù),包括前后車相對距離,前車車速,本車車速,本車加速度,發(fā)動機力矩,制動減速度,離線求解狀態(tài)-動作值函數(shù)的權(quán)重向量;具體方法如下:
2.1)馬爾科夫模型切換決策模型建立:駕駛員駕駛過程中不同模式間的切換表征特定駕駛員駕駛風(fēng)格,將駕駛員切換模式?jīng)Q策建模為馬爾科夫決策過程,確定描述駕駛工況的狀態(tài)向量,構(gòu)建相應(yīng)的基函數(shù);
馬爾科夫模式切換決策模型建立:系統(tǒng)將駕駛風(fēng)格定義于不同跟車情況下駕駛員在定速巡航,加速接近,穩(wěn)態(tài)跟車,快速制動幾種模式間的切換策略;將駕駛員切換模式?jīng)Q策建模為馬爾科夫決策過程,進而使用強化學(xué)習(xí)方法學(xué)習(xí);強化學(xué)習(xí)是一種交互式學(xué)習(xí)方法,智能體在環(huán)境中采取動作獲得回報,基于回報進行學(xué)習(xí);馬爾科夫決策過程建模包括狀態(tài),動作,回報函數(shù)的設(shè)計;智能體在當(dāng)前狀態(tài)根據(jù)策略采取動作,進行狀態(tài)轉(zhuǎn)移并得到回報;系統(tǒng)在跟車狀態(tài)下,描述當(dāng)前時刻k的駕駛工況的狀態(tài)向量s(k)為:
s(k)={vh(k),Δv(k),Δx(k),L(k),A(k-1)} (1)
其中,vh(k)為k時刻本車車速,Δv(k)為k時刻相對車速,Δx(k)為k時刻相對距離,L(k)為k時刻前車駕駛意圖,A(k-1)為k-1時刻的駕駛模式;
在非跟車狀態(tài)下,描述駕駛工況的狀態(tài)向量為:
s(k)={vh(k),vref(k)-vh(k),0,0,A(k-1)} (2)
其中,vh(k)為k時刻本車車速,vref(k)為k時刻駕駛員設(shè)定車速,A(k-1)為k-1時刻的駕駛模式;非跟車狀態(tài)下,表示相對距離與前車駕駛意圖的狀態(tài)分量均為0;
動作A∈{1,2,3,4}表示在定速巡航,加速接近,穩(wěn)態(tài)跟車,快速制動模式間切換的動作;根據(jù)駕駛員駕駛數(shù)據(jù)AD為駕駛員模式,Aπ為當(dāng)前策略下學(xué)習(xí)算法輸出的動作,則回報函數(shù)為:
2.2)基于強化學(xué)習(xí)的最優(yōu)問題求解:使用數(shù)值逼近方法對狀態(tài)-動作值函數(shù)的權(quán)重向量基于貝爾曼最優(yōu)性方程迭代求解;根據(jù)駕駛員駕駛數(shù)據(jù),使用數(shù)值逼近方法求解強化學(xué)習(xí)中狀態(tài)-動作值函數(shù)的權(quán)重向量;
步驟三、通過跟車特性學(xué)習(xí)模塊(D)針對特定駕駛員在每種駕駛模式下跟車行為特性的不同,基于強化學(xué)習(xí)中常見的Actor-Critic框架在連續(xù)狀態(tài)空間及連續(xù)動作空間進一步在線學(xué)習(xí);使用結(jié)合歸一化評價方法和引導(dǎo)動作搜索的強化學(xué)習(xí)方法,提高算法效率及學(xué)習(xí)成功率,減少算法對于初始權(quán)重的依賴性;
步驟四、通過車輛執(zhí)行控制模塊(E)采用比例-積分-微分PID控制器實現(xiàn)對于決策量即加速度的執(zhí)行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910077510.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





