[發明專利]基于深度強化學習的混合動力車輛油門控制方法及系統有效
| 申請號: | 202010401009.9 | 申請日: | 2020-05-13 |
| 公開(公告)號: | CN111547039B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 鄒淵;張旭東;孫逢春;鄒潤楠 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | B60W20/00 | 分類號: | B60W20/00;B60W50/00 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 杜陽陽 |
| 地址: | 100044 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 混合 動力 車輛 油門 控制 方法 系統 | ||
本發明涉及一種基于深度強化學習的混合動力車輛油門控制方法及系統,包括:獲取車輛上一時刻的狀態量,記第一狀態量;根據第一狀態量采用深度神經網絡確定當前時刻油門控制量,記第一油門控制量;深度神經網絡中包括歸一化優勢函數;根據第一油門控制量控制車輛的油門;將第一油門控制量輸入到車輛的動力學模型中,得當前時刻的狀態量,記第二狀態量;根據第一狀態量、第一油門控制量和第二狀態量確定數據段;直至獲取T個連續時刻的數據段;根據各數據段對深度神經網絡中的權值進行調節,得更新后的深度神經網絡,采用更新后的深度神經網絡確定當前時刻油門控制量,從而精確的對車輛油門進行控制,通過本發明的上述方法提高了對油門的精度控制。
技術領域
本發明涉及汽車油門控制技術領域,特別是涉及一種基于深度強化學習的混合動力車輛油門控制方法及系統。
背景技術
目前,針對混合動力汽車油門控制問題的主要解決方案有基于規則的方法和以動態規劃、強化學習為代表的基于優化的方法。基于規則的方法需要提前知道工程師預設發動機及電池工作模式切換規則,因此對于復雜多變的路況缺乏適應性,難以實現混合動力車輛節能性及高機動性。基于深度強化學習的油門控制方法能有效學習道路工況信息,針對已獲取道路信息通過神經網絡的訓練求得最優策略。但是傳統深度強化學習訓練中,常將已訓練過數據片段儲存于經驗池中,在訓練中隨機提取進行再訓練以打破數據相關性,隨機提取歷史經驗片段使得訓練時間較長且伴隨有陷入局部最優解的風險,從而獲取的控制量精度低。
發明內容
本發明的目的是提供一種基于深度強化學習的混合動力車輛油門控制方法及系統,提高油門控制精度。
為實現上述目的,本發明提供了如下方案:
一種基于深度強化學習的混合動力車輛油門控制方法,所述混合動力車輛油門控制方法包括:
S1,獲取車輛上一時刻的狀態量,記為第一狀態量;
S2,根據所述第一狀態量采用深度神經網絡確定當前時刻油門控制量,記為第一油門控制量;所述深度神經網絡中包括歸一化優勢函數;
S3,根據所述第一油門控制量控制車輛的油門;
S4,獲取車輛的動力學模型;
S5,將所述第一油門控制量輸入到所述車輛的動力學模型中,得到當前時刻的狀態量,記為第二狀態量;
S6,根據所述第一狀態量、所述第一油門控制量和所述第二狀態量確定數據段;重復S1至S6直至獲取T個連續時刻的數據段;
S7,根據各所述數據段對深度神經網絡中的權值進行調節,得到更新后的深度神經網絡;并返回S2,采用所述更新后的深度神經網絡確定當前時刻油門控制量。
可選的,所述根據各所述數據段對深度神經網絡中的權值進行調節,得到更新后的深度神經網絡,具體包括:
根據所述數據段獲取所述數據段對應的取值概率;
根據所述取值概率確定數據段權值;
根據所述車輛的動力學模型,采用深度強化學習獎勵函數確定數據段所對應的獎勵;
根據所述獎勵和所述數據段權值確定數據段損失;
根據所述數據段損失調節所述深度神經網絡中的權值,得到更新后的深度神經網絡。
可選的,所述根據所述車輛的動力學模型,采用深度強化學習獎勵函數確定數據段所對應的獎勵,具體包括:
根據公式確定數據段所對應的獎勵;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010401009.9/2.html,轉載請聲明來源鉆瓜專利網。





