[發明專利]一種基于TD3算法的燃料電池汽車能量管理方法有效
| 申請號: | 202110506276.7 | 申請日: | 2021-05-10 |
| 公開(公告)號: | CN113085665B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 唐小林;周海濤;汪鋒;胡曉松;鄧忠偉;李佳承 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | B60L58/30 | 分類號: | B60L58/30;G06F30/20 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 td3 算法 燃料電池 汽車 能量 管理 方法 | ||
1.一種基于TD3算法的燃料電池汽車能量管理方法,其特征在于,該方法包括以下步驟:
S1:獲取燃料電池汽車的車輛狀態信息、動力電池狀態信息以及燃料電池狀態信息;
S2:建立燃料電池汽車能量管理系統模型,包括:整車縱向動力學模型、燃料電池氫耗模型、動力電池等效電路模型、燃料電池衰退模型、動力電池老化模型;
建立的整車縱向動力學模型為:
其中,Pdrive為驅動功率,Pm為需求功率,Pbat為動力電池功率,Pfc為燃料電池功率,mv為車輛的重量,v為速度,a為加速度,Faero為空氣阻力,Froll為滾動摩擦,Fgrade為坡度阻力,ηmotor為電機效率,ηDC/DC為DC/DC轉換器的效率,ηDC/AC為DC/AC轉換器的效率;
建立的燃料電池衰退模型為:
其中,k1為燃料電池輸出功率等于或大于80%額定功率時的電壓退化率,k2為燃料電池輸出功率小于20%時的電壓退化率,k3為瞬時負載變化時每千瓦的電壓退化率,Phigh和Plow分別為燃料電池的高功率和低功率閾值,ΔP為每采樣時間功率的變化,t1為工作點等于或大于80%額定功率的次數,t2為工作點的輸出功率小于20%的次數;
建立的動力電池老化模型為:
Qaging=(αSOC+β)·exp((-Ea+η·Crate)/Rgas·TK)Ahz
其中,Qaging為電池的容量衰減,α,β為擬合系數,Ea為活化能,Crate為電流充放電速率,η為Crate的補償系數,Rgas為氣體常數,TK為測試電池時的環境溫度,Ah為安時通量,z為冪系數,Qaging,k+1為k+1時刻電池的容量衰減,Qaging,k為k時刻電池的容量衰減,ΔAh為k時刻到k+1時刻的安時通量的變化;Aheff為有效安時通量,σ為嚴重程度因子,Ibat為鋰離子電池電流;
S3:利用TD3算法構建燃料電池汽車能量管理策略,求解包含能耗經濟性、燃料電池壽命以及動力電池壽命的多目標優化問題;所述TD3算法是雙延遲深度確定性策略梯度算法。
2.根據權利要求1所述的燃料電池汽車能量管理方法,其特征在于,步驟S1中,所述車輛狀態信息包括:車輛的速度、電機轉速、電機效率以及傳動系統;所述動力電池狀態信息包括:電池電流、電壓、內阻以及SOC;所述燃料電池狀態信息包括:燃料電池的功率、效率以及氫耗。
3.根據權利要求1所述的燃料電池汽車能量管理方法,其特征在于,步驟S2中,建立的燃料電池氫耗模型為:
其中,為氫耗量,為氫的低熱值,ηfc為燃料電池效率,Pfc為燃料電池功率。
4.根據權利要求1所述的燃料電池汽車能量管理方法,其特征在于,步驟S2中,建立的動力電池等效電路模型為:
其中,Ibat為鋰離子電池電流,Voc為鋰離子電池開路電壓,Rbat為鋰離子電池內阻,Pbat為電池功率,SOC(k+1)為下一時刻電池的荷電狀態,SOC(k)為當前時刻電池的荷電狀態,Δt為離散時間間隔,Qbat為鋰離子電池容量。
5.根據權利要求1~4中任意一項所述的燃料電池汽車能量管理方法,其特征在于,所述步驟S3具體包括以下步驟:
S31:狀態變量空間為包含燃料電池功率Pfc、車輛的轉速w、電池的荷電狀態SOC以及電池安時通量Ah的集合,表示為:
S={Pfc,w,SOC,Ah}
S32:在TD3算法中,智能體將當前狀態S作為演員網絡的輸入,并輸出一個確定的動作;通過在確定動作的基礎上增加噪聲來選擇最終動作;動作集A={Pfc};
S33:在智能體采取動作后,獲得相應的獎勵,獎勵函數R定義為:
其中,α,β,λ,ω為權重系數;DFC為燃料電池衰退容量,Aheff為有效安時通量;
S34:智能體在采取動作后,獲得相應的獎勵并且進入下一時刻狀態S′,并在經驗池中儲存經驗樣本{S,A,R,S′};在經驗樣本數超過經驗池容量時,新的采樣經驗會覆蓋舊的經驗;
S35:從經驗池中隨機抽取小批量經驗樣本,目標演員網絡根據狀態S′輸出下一時刻動作A′;對動作A′施加隨機噪聲,即:
A'=πφ′(S')+∈
其中,πφ′為目標演員網絡,∈為隨機噪聲;
S36:使用一對獨立的評論家網絡估計動作值函數;下一時刻的狀態與動作作為目標評論家網絡的輸入,選擇兩個網絡中輸出的最小Q值計算目標值y;評論家網絡目標值計算公式為:
其中,γ為折扣因子,為目標評論家網絡輸出的Q值;然后,利用平方差損失函數更新評論家網絡;
S37:更新策略網絡時,使用評論家網絡進行更新;使用梯度上升法對策略網絡進行更新,更新公式為:
其中,為在狀態S下,遵從策略π,做出動作所得到獎勵的期望;為演員網絡梯度,為評論家網絡梯度;
S38:當評論家網絡估值不準確的時候,演員網絡根據不準確的估值往錯誤的方向進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110506276.7/1.html,轉載請聲明來源鉆瓜專利網。





