[發明專利]基于強化學習的無人駕駛汽車多車道行駛的決策方法在審
| 申請號: | 201910911284.2 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110716562A | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 王一松;王春燕;張自宇;徐燦 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 32237 江蘇圣典律師事務所 | 代理人: | 韓天宇 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 無人駕駛汽車 多車道 強化學習 決策系統 收益函數 車輛行駛狀態 強化學習算法 神經網絡參數 決策 傳感器采集 不確定性 車輛信息 車輛行駛 動態環境 高速行駛 駕駛行為 行駛過程 訓練模型 危險度 修正 駕駛 行駛 預測 更新 安全 | ||
1.基于強化學習的無人駕駛汽車多車道行駛的決策方法,其特征在于,其包括以下步驟:
步驟1),基于小角度假設建立車輛的動力學模型和輪胎模型,建立動力學模型時結合轉向工況下輪胎的側偏力、驅動制動力、以及輪胎側偏角進行單個輪胎和整車的受力分析,并對前輪偏角及橫擺角建立約束條件;
步驟2),對NGSIM數據庫中US-101數據集的數據進行繪圖分析,獲取駕駛行為決策樣本數據;
所述NGSIM數據庫中US-101數據集的數據包括:車輛進入檢測路段先后編號、開始檢測時刻為起點的時間序列編號、車頭中心距路段左側邊緣距離X、車頭中心距路段起點距離Y、車輛瞬時速度、車輛瞬時加速度;
步驟3),構建強化學習訓練模型、搭建BP神經網絡前向傳播結構并獲取隨機執行動作,基于強化學習算法的目標函數選擇與執行動作相對應的收益函數,在此基礎上采用基于策略梯度的強化學習算法反向更新神經網絡權值,建立基于強化學習-BP神經網絡算法的決策系統;
步驟4),基于上述決策系統獲取執行動作并預測車輛行駛狀態,由收益函數判斷車輛行駛危險度,決策多車道工況下車輛當前時刻的最優駕駛行為,以提高汽車行駛時的安全性及高效性。
2.根據權利要求1所述的基于強化學習的無人駕駛汽車多車道行駛的決策方法,其特征在于,步驟1)中基于小角度假設建立車輛動力學模型和輪胎模型的具體步驟如下:
以車輛自身質心O為坐標原點,沿車輛縱軸建立x軸,垂直于x軸并過質心O作y軸,形成車輛坐標系,對車輛沿x軸,y軸和繞z軸的受力進行分析:
式中,分別為車輛沿x、y方向上的加速度,a、b分別為車輛質心到其前、后軸的距離,m為車輛整備質量,Iz為車輛繞z軸的轉動慣量,Fxf、Fxr為前、后輪胎受到的基于車身坐標系x方向上的力,Fyf、Fyr為前、后輪胎受到的基于車身坐標系y方向上的力;為車輛橫擺角速度;
對動力學模型進行簡化,減少計算時間,在計算輪胎力時,采用小角速度假設:
式中,δf表示前輪偏角;
基于較小的前輪偏角和將輪胎模型線性化處理后的車輛動力學模型如下:
式中:Ccf、Ccr表示前、后輪胎側偏剛度;Clf、Clr表示前、后輪胎縱向剛度;sf、sr表示前、后輪胎的縱向滑移率;
輪胎模型如下:
式中:系數B、C、D由輪胎的垂直載荷和外傾角決定,B為剛度因子;C為形狀因子;D為峰值因子;Y()為輸出變量代表輪胎所受的各方向力及力矩;x為輸入變量,表示輪胎的側偏角或縱向滑移率;Fz為輪胎所受垂直載荷,γ為輪胎外傾角,E為曲率因子,Sv為垂直偏移,Sh為水平偏移,a1~a15為預先由輪胎實驗數據擬合得到的參數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910911284.2/1.html,轉載請聲明來源鉆瓜專利網。





