[發明專利]基于TD3多目標HEV能量管理方法及系統有效
| 申請號: | 202110654498.3 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113246958B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 顏伏伍;王金海;杜常清;彭可揮 | 申請(專利權)人: | 武漢理工大學 |
| 主分類號: | B60W20/13 | 分類號: | B60W20/13;B60W20/15;B60W50/00;B60W10/06;B60W10/26 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 鄭勤振 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 td3 多目標 hev 能量 管理 方法 系統 | ||
公開了一種基于雙延遲深度確定性策略梯度多目標HEV能量管理方法及系統。本發明創新地使用雙延遲深度確定性策略梯度策略,解決基于離散動作空間深度強化學習能量管理策略維度災難問題和深度確定性策略梯度過估計問題。而且將燃油消耗、電池溫度和電池壽命(SOH)作為優化目標,提高能量管理策略的實用價值。
技術領域
本發明涉及深度強化學習算法提高新能源汽車燃油經濟性和電池使用壽命,尤其涉及一種基于雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic PolicyGradient,TD3)的并聯混合動力車輛(HEV)多目標能量管理方法。
背景技術
能源危機和氣候變化已經引起了世界各國的廣泛關注,車輛的燃油消耗和尾氣排放是不可忽視的關鍵因素。為了緩解嚴峻的能源危機和氣候變化,車輛電動化是未來汽車工業發展的必由之路。在新能源汽車中,混合動力汽車由于相比于傳統燃油汽車需要更少的燃料,相比于純電動汽車具有更遠的行駛里程,成為目前最行之有效的解決方案。但是混合動力車輛能量管理系統非常復雜,既要恰當地分配發動機功率和電機功率,又要全面保障車輛的駕駛性能和經濟性,其能量管理方法涵蓋了傳統汽車、純電動汽車和油電混合汽車能量管理多方面的內容,成為國內外汽車領域廣泛研究的焦點。
能量管理策略主要可以分為三類。a)基于規則的能量管理策略,其依賴于通過專業經驗制定的規則集合而且不需要預知駕駛工況,雖然實用性強,但是基于規則的能量管理往往不能達到車輛的最優控制,且針對的駕駛工況單一。二進制控制策略是一種典型的基于規則的控制策略,該策略首先用電池的能量驅動車輛行駛,當電池SOC值達到設定的最低值,轉換到發動機驅動車輛。b)基于優化的能量管理策略,例如動態規劃策略(DP),凸優化,遺傳算法,其根據已知的或預測的車輛行駛工況對車輛進行最優控制,能夠獲得車輛在特定工況循環下的最優或者接近最優結果,但是需要預知車輛的全部行駛工況,耗用的計算資源很大,無法用于實時控制。為了提高能量管理策略的實用性,實時在線優化策略得到廣泛的研究,例如,模型預測控制(MPC),龐特里亞金最小值原理(PMP)和等效燃油消耗策略(ECMS)。但是由于采用部分歷史信息計算系統的等效燃油消耗,歷史信息不一定能代表未來的行駛狀態,導致這種算法的魯棒性不好。需要采用性能更好的策略彌補上述算法的缺陷。c)基于學習的能量管理策略。機器學習(數據驅動優化),特別是近年來發展起來的深度強化學習(Deep Reinforcement Learning)算法,為系統模型及控制參數優化、道路工況特征以及駕駛行為特征提取提供了有力的研究工具。在強化學習算法中,Q Learning和DeepQ Network(DQN)等離散動作空間強化學習算法使用最為廣泛,但是上述算法只適用于離散的和低維的動作空間,HEV能量管理控制任務具有高維和連續的動作空間。上述算法需要將動作空間離散化,這樣做不可避免地丟失動作空間的重要的信息而且還會構成維度災難(curse of dimensionality)問題。深度確定性策略梯度(DDPG)等連續動作空間的強化學習算法可以很好地處理連續的動作空間而不需要進行離散化,但是深度確定性策略梯度存在過估計問題,估計的值函數往往大于真實的值函數,影響該能量管理策略的穩定性,算法的魯棒性差。
此外,目前的能量管理策略僅片面地改善了車輛的燃油經濟性,忽略了控制策略對電池的壽命影響。眾所周知,電池系統的使用壽命與操作工況和電池溫度息息相關,電池內部溫度過高會導致熱擊穿。能量管理策略必須考慮這些重要的因素,否則沒有實際應用價值。
發明內容
本發明提供一種基于雙延遲深度確定性策略梯度多目標HEV能量管理方法及系統。該方法及系統使用兩套網絡表示值函數和延遲更新技術可以很好地解決過估計問題。將車輛燃油消耗、電池SOC、電池溫度和電池壽命(State of Health,SOH)作為優化目標,構建多目標優化能量管理策略,使車輛工作在真實最優狀態,提高能量管理策略的實用價值。
本發明的至少一個實施例提供一種HEV能量管理方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢理工大學,未經武漢理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110654498.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種外墻保溫抗裂高分子砂漿及其制備方法
- 下一篇:一種照明裝置





