[發明專利]一種基于強化學習的車輛分布式轉向驅動系統控制方法有效
| 申請號: | 202010633638.4 | 申請日: | 2020-07-02 |
| 公開(公告)號: | CN111746633B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 梁為何;趙萬忠;欒眾楷;周小川;張子俊 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | B62D6/00 | 分類號: | B62D6/00;G06N20/00;G06N3/08;G06F17/15;B62D101/00;B62D137/00 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 賀翔 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 車輛 分布式 轉向 驅動 系統 控制 方法 | ||
1.一種基于強化學習的車輛分布式轉向驅動系統控制方法,其特征在于,步驟如下:
1)獲取車輛當前狀態數據,包括:轉向盤轉角、車速、橫擺角速度和側向加速度;
2)根據上述獲取到的橫擺角速度和側向加速度,采用無跡卡爾曼濾波算法估計出車輛的當前質心側偏角;
3)根據轉向盤轉角和車速求解出理想質心側偏角和理想橫擺角速度;
4)計算得到理想質心側偏角與當前質心側偏角的偏差值、理想橫擺角速度與當前橫擺角速度的偏差值;
5)根據上述兩個偏差值計算求得理想的側向力和橫擺力矩;
6)運用強化學習方法學習轉角轉矩分配策略,輸出四輪獨立轉角和轉矩;
7)執行上述生成的分配策略,然后動態更新步驟1)中的數據,并返回一個獎勵值,所屬獎勵值用來評價所執行動作的好壞;
所述步驟6)具體包括:
61)輸入用來訓練的車輛當前狀態數據;
62)將各參數輸入強化學習DQN進行訓練;不斷更新Q值函數,直到Q值函數收斂,獲得收斂后的神經神經網絡模型;
63)將用來測試的車輛動態參數輸入上述得到的模型;
64)輸出分布式轉向系統的轉角和轉矩;
所述步驟62)具體包括:
獲取車輛的運動狀態參數和環境參數,生成馬爾可夫決策過程四元組E=S,A,P,R,其中,S為狀態集描述車輛的質心側偏角、橫擺角速度、車速,A為動作集描述車輛四輪獨立轉角和轉矩,P為狀態轉移函數,R為獎賞函數;
采用DQN來訓練數據;初始化Q-Table,行和列分別是S和A,Q-Table的值用來衡量當前狀態s采取動作a的好壞;在訓練過程中采用Bellman等式來更新Q-Table:
Q(s,a)=r+γ(max(Q(s',a')))
其中,s為狀態,a為動作,s'為下一個狀態,a'為下一個狀態可能采取的動作,Q(s,a)為當前狀態s采取動作a后的Q值,r為實際獎勵值,γ為衰減率,max(Q(s',a'))為下一個狀態的最大Q值;
在DQN中通過神經網絡來實現Q-Table,輸入狀態s,輸出不同動作a的Q值,具體實現過程如下:
(1)采用深度神經網絡作為Q-Table,參數為θ:
Q(s,a,θ)=Qπ(s,a)
(2)在Q值中使用2范數來定義目標函數:
L(θ)=||r+γ·maxQ(s',a',θ)-Q(s,a,θ)||2;
(3)計算參數θ關于代價函數的梯度;
(4)使用隨機梯度下降法實現端到端的優化目標;
計算出上述梯度,從深度神經網絡中進行計算,使用隨機梯度下降來更新參數,從而得到最優的Q值;
(5)以概率ε隨機選擇動作at或通過神經網絡輸出的Q值選擇Q值最大的動作at,得到執行動作at后的獎勵rt和下一個網絡的輸入,神經網絡再根據當前的值計算下一個時刻網絡的輸出,如此循環;
所述步驟7)中獎勵值包括:最小質心側偏角、最小輪胎利用率、最小橫向位移偏差、最小速度偏差、最小橫擺角速度偏差和最小側向加速度偏差;在訓練的過程中經過若干次迭代、訓練后,當代表獎賞的Q值收斂到最大值時,分配策略得到優化。
2.根據權利要求1所述的基于強化學習的車輛分布式轉向驅動系統控制方法,其特征在于,所述步驟1)中的車輛當前狀態數據包括:車輛的靜態參數和動態參數,所述動態參數包括:車輛質心側偏角、橫擺角速度、車速、側向加速度、側傾角、輪胎側向力、輪胎垂向載荷。
3.根據權利要求1所述的基于強化學習的車輛分布式轉向驅動系統控制方法,其特征在于,所述步驟2)具體包括:
21)計算2n+1個sigma點及其權值:
式中,Xi為目標狀態量,n為狀態量個數,wi為各sigma點的權重,λ為超參數,P為協方差;
22)計算sigma點通過非線性函數f()的結果:
式中,Y為非線性函數f()的傳播結果,為Y的加權平均值,P為協方差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010633638.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多筒式紡織面料吸塵裝置
- 下一篇:一種自動調節型液態車載香水





