[發明專利]一種融合深度強化學習的混動汽車分層預測能量管理方法有效
| 申請號: | 202110930227.6 | 申請日: | 2021-08-13 |
| 公開(公告)號: | CN113525396B | 公開(公告)日: | 2023-10-13 |
| 發明(設計)人: | 何洪文;黃汝臣 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | B60W50/00 | 分類號: | B60W50/00;G06N3/08 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 岳東升;楊帥峰 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 深度 強化 學習 汽車 分層 預測 能量 管理 方法 | ||
1.一種融合深度強化學習的混動汽車分層預測能量管理方法,其特征在于:具體包括以下步驟:
步驟1、從路況信息數據庫中提取混動汽車的各歷史行駛路線中從起點至終點的多維路況信息,作為訓練數據集和測試數據集;
在云計算平臺中,由所述多維路況信息和電池SOC構造狀態空間,由發動機功率構造動作空間,以及由整車燃油消耗與電能消耗總成本以及電池SOC偏離預設值的懲罰成本構建獎勵函數,從而建立DDPG算法,并利用所述訓練數據集和測試數據集對DDPG算法進行訓練;提取訓練完成的DDPG算法的神經網絡作為SOC最優參考軌跡規劃模型,也即能量管理策略的上層;
步驟2、在云計算平臺建立基于廣義回歸神經網絡GRNN的短期多維路況預測模型,以所述多維路況信息作為輸入、以車輛在未來時刻的運行狀態、路面及載荷情況作為輸出;利用所述訓練數據集和測試數據集對該短期多維路況預測模型進行訓練;
步驟3、基于智能交通系統,在車聯網環境下提前獲取目標行駛路線的多維路況信息,并利用所述SOC最優參考軌跡規劃模型得到SOC最優參考軌跡;
步驟4、以整車燃油消耗與電能消耗總成本最小為控制目標,建立基于模型預測控制MPC的混動汽車能量最優分配控制器,以SOC為狀態變量,發動機功率為控制變量,與所述短期多維路況預測模型共同構成能量管理策略的下層;
基于所述短期多維路況預測模型輸出確定預測時域內的整車驅動需求功率,并以所述SOC最優參考軌跡作為控制時域內的SOC參考值,利用動態規劃算法求解得到控制時域中的最優控制序列,最終實現提供長期的能量最優分配;
步驟5、依次重復執行前述步驟,對能量最優分配策略以及路況信息數據庫進行更新。
2.如權利要求1所述的方法,其特征在于:所述步驟1具體包括:
步驟1.1、提取包括:車速、加速度、每段路線中的行駛里程、路面坡度、道路曲率、負載質量以及路線中途經的交通信號燈信息的多維路況信息,將這些多維路況信息作為訓練數據集和測試數據集;
步驟1.2、在云計算平臺中建立以下形式的DDPG算法:
式中,S表示狀態空間,A表示動作空間,R表示獎勵函數,SOC表示電池荷電狀態,v表示車速,acc表示加速度,Pe表示發動機功率,fuel表示單位時間的耗油量,elec表示單位時間的耗電量,SOCtar表示目標SOC值,w1和w2分別表示燃油和電能的單位價格,α表示能耗成本的權重因子,β和ε都表示SOC維持成本的權重因子;
步驟1.3、利用所述訓練數據集和測試數據集對DDPG算法進行訓練,具體訓練更新過程如下:
ytar(i)=ri+γQ'(si+1,μ'(si+1|θμ')θQ')
ypre(i)=Q(si,ai|θQ)
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
式中,i表示訓練的步數,Q(si,ai)表示動作值函數,Q表示當前Critic網絡,μ表示當前Actor網絡,Q'表示目標Critic網絡,μ'表示目標Actor網絡,θ表示神經網絡參數,s表示狀態,a表示動作,r表示獎勵,γ表示折扣因子,ytar表示目標Q值,ypre表示實際Q值,n表示批量梯度下降的樣本數,J(θQ)表示當前Critic網絡的損失函數,J(θμ)表示當前Actor網絡的損失函數,τ表示軟更新系數;
當訓練至算法完全收斂后,提取DDPG的動作選擇Actor網絡作為SOC最優參考軌跡規劃模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110930227.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于斜墻的砌筑方法
- 下一篇:用于電力施工的電纜放線器





