[發明專利]基于深度強化學習的混合動力車輛油門控制方法及系統有效
| 申請號: | 202010401009.9 | 申請日: | 2020-05-13 |
| 公開(公告)號: | CN111547039B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 鄒淵;張旭東;孫逢春;鄒潤楠 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | B60W20/00 | 分類號: | B60W20/00;B60W50/00 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 杜陽陽 |
| 地址: | 100044 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 混合 動力 車輛 油門 控制 方法 系統 | ||
1.一種基于深度強化學習的混合動力車輛油門控制方法,其特征在于,所述混合動力車輛油門控制方法包括:
S1,獲取車輛上一時刻的狀態量,記為第一狀態量;
S2,根據所述第一狀態量采用深度神經網絡確定當前時刻油門控制量,記為第一油門控制量;所述深度神經網絡中包括歸一化優勢函數;
S3,根據所述第一油門控制量控制車輛的油門;
S4,獲取車輛的動力學模型;
S5,將所述第一油門控制量輸入到所述車輛的動力學模型中,得到當前時刻的狀態量,記為第二狀態量;
S6,根據所述第一狀態量、所述第一油門控制量和所述第二狀態量確定數據段;重復S1至S6直至獲取T個連續時刻的數據段;
S7,根據各所述數據段對深度神經網絡中的權值進行調節,得到更新后的深度神經網絡;并返回S2,采用所述更新后的深度神經網絡確定當前時刻油門控制量。
2.根據權利要求1所述的基于深度強化學習的混合動力車輛油門控制方法,其特征在于,所述歸一化優勢函數為:
其中,s為車輛狀態量,α為油門控制量,μ為在狀態量s下的最優動作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)為歸一化優勢函數,θA為歸一化優勢函數,θP為矩陣P的參數,θμ為μ的參數,L(·)為下三角矩陣。
3.一種基于深度強化學習的混合動力車輛油門控制系統,其特征在于,所述混合動力車輛油門控制系統包括:
第一狀態量獲取模塊,用于獲取車輛上一時刻的狀態量,記為第一狀態量;
第一油門控制量確定模塊,用于根據所述第一狀態量采用深度神經網絡確定當前時刻油門控制量,記為第一油門控制量;所述深度神經網絡中包括歸一化優勢函數;
車輛油門控制模塊,用于根據所述第一油門控制量控制車輛的油門;
車輛的動力學模型獲取模塊,用于獲取車輛的動力學模型;
第二狀態量確定模塊,用于將所述第一油門控制量輸入到所述車輛的動力學模型中,得到當前時刻的狀態量,記為第二狀態量;
數據段獲取模塊,用于根據所述第一狀態量、所述第一油門控制量和所述第二狀態量確定數據段;直至獲取T個連續時刻的數據段;
深度神經網絡更新模塊,用于根據各所述數據段對深度神經網絡中的權值進行調節,得到更新后的深度神經網絡;并返回所述第一油門控制量確定模塊,采用所述更新后的深度神經網絡確定當前時刻油門控制量。
4.根據權利要求3所述的基于深度強化學習的混合動力車輛油門控制系統,其特征在于,所述歸一化優勢函數為:
其中,s為車輛狀態量,α為油門控制量,μ為在狀態量s下的最優動作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)為歸一化優勢函數,θA為歸一化優勢函數,θP為矩陣P的參數,θμ為μ的參數,L(·)為下三角矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010401009.9/1.html,轉載請聲明來源鉆瓜專利網。





