[發(fā)明專利]一種多物理場約束的鋰離子電池智能快速充電方法有效
| 申請?zhí)枺?/td> | 202011087624.3 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112018465B | 公開(公告)日: | 2021-01-29 |
| 發(fā)明(設(shè)計)人: | 魏中寶;吳京達;何洪文;李建威;鐘浩 | 申請(專利權(quán))人: | 北京理工大學 |
| 主分類號: | H01M10/44 | 分類號: | H01M10/44;H02J7/00;G06F17/11;G06N3/04;G06N3/06;G06N3/08 |
| 代理公司: | 成都方圓聿聯(lián)專利代理事務(wù)所(普通合伙) 51241 | 代理人: | 李鵬 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 物理 約束 鋰離子電池 智能 快速 充電 方法 | ||
1.一種多物理場約束的鋰離子電池智能快速充電方法,其特征在于包括以下步驟:
S1.開展鋰離子電池測試,建立鋰離子電池電熱耦合模型和老化模型;
S2.將S1中確定的關(guān)鍵狀態(tài)歸入強化學習狀態(tài)空間,定義動作空間和獎勵函數(shù),搭建深度確定性策略梯度算法的策略網(wǎng)絡(luò)、價值網(wǎng)絡(luò)并進行初始化,定義優(yōu)先經(jīng)驗回放池;
所述步驟S2包括以下子步驟:
S201.確定鋰離子電池快速充電過程中的約束變量,作為狀態(tài)向量空間s的組成變量,選擇充電電流或充電功率作為動作變量,作為動作空間A的組成變量;
選取荷電狀態(tài)SoC,電芯溫度Tc和端電壓V作為約束變量,充電電流cr作為控制動作,狀態(tài)空間S、時變狀態(tài)變量st、動作空間A和時變動作變量at分別定義如下:
S={SoC,Tc,V}
st=[SoCt,Tc,t,Vt],st∈S
A={cr|cr∈(0,6C)}
at=crt,at∈A
其中,下標t代表時刻t,為物理量的時序表達,具體地:
SoCt為t時刻鋰離子電池荷電狀態(tài);Tc,t為t時刻鋰離子電池電芯溫度;Vt為t時刻端電壓;C為充電倍率,是充電電流cr的單位;at為t時刻動作變量;crt即t時刻充電電流;
S202.根據(jù)預(yù)期控制目標選擇獎勵函數(shù)的參考指標,建立歸一化獎勵函數(shù);
S203.建立用于策略選擇的全連接深度神經(jīng)網(wǎng)絡(luò)作為策略網(wǎng)絡(luò)μ,θμ表示策略網(wǎng)絡(luò)的參數(shù);建立用于評估策略價值的全連接深度神經(jīng)網(wǎng)絡(luò)作為價值網(wǎng)絡(luò)Q,θQ表示價值網(wǎng)絡(luò)的參數(shù);對策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的權(quán)重和偏置進行初始化賦值;復(fù)制策略網(wǎng)絡(luò)作為目標策略網(wǎng)絡(luò),復(fù)制價值網(wǎng)絡(luò)作為目標價值網(wǎng)絡(luò);
S204.選擇經(jīng)驗回放池最大容量值,建立經(jīng)驗回放池,用于儲存訓練過程每一時刻的信息組,該信息組包括:狀態(tài)變量,動作變量,獎勵函數(shù)和狀態(tài)轉(zhuǎn)移后的狀態(tài)變量;
S3.設(shè)定離線訓練場景,獲取初始時刻狀態(tài)變量,利用策略網(wǎng)絡(luò)獲取當前狀態(tài)下的動作變量,采用基于隨機變換的噪聲探索機制擴大動作選取范圍;
所述步驟S3包括以下子步驟:
S301.對于當前訓練回合數(shù)i,初始i=1,開啟經(jīng)驗儲存池,對鋰離子電池模型進行狀態(tài)初始化,設(shè)定時間t=0;
S302.獲取初始時刻狀態(tài)變量s0,將狀態(tài)變量輸入策略網(wǎng)絡(luò)獲得動作變量a=μ(s|θμ),為該動作附加一均值為0,標準差為1倍動作變量定義域的隨機噪聲;
S4.依據(jù)S1中電池模型,生成充電動作、電池狀態(tài)轉(zhuǎn)移、獎勵值并記錄于經(jīng)驗池,通過選擇經(jīng)驗記錄進行深度確定性策略梯度網(wǎng)絡(luò)的同步更新;
所述步驟S4包括以下子步驟:
S401.基于S1中建立的電池模型,輸入所選擇的當前狀態(tài)下的動作變量,計算更新狀態(tài)變量空間和實時獎勵函數(shù)值,將時間步長內(nèi)的at,st,st+1和獎勵函數(shù)值rt組成經(jīng)驗元組;
S402.計算t時刻優(yōu)先度:
LQ(t)=[rt+γQ'(st+1,μ(st+1)|θQ')-Q(st,at|θQ)]2
式中,γ為折扣因子;μ(·)代表策略網(wǎng)絡(luò),Q(·)代表價值網(wǎng)絡(luò);Q′(·)代表目標價值網(wǎng)絡(luò);θμ和θQ分別代表策略網(wǎng)絡(luò)的參數(shù)和價值網(wǎng)絡(luò)的參數(shù);具體地:
μ(s|θμ)代表以θμ為參數(shù)的策略網(wǎng)絡(luò),對輸入的狀態(tài)變量s的響應(yīng);
Q(st,at|θQ)代表以θQ為參數(shù)的價值網(wǎng)絡(luò),對t時刻輸入的狀態(tài)變量st和動作變量at的響應(yīng);
Q′(st+1,μ(st+1)|θQ′)代表以θQ′為參數(shù)的目標價值網(wǎng)絡(luò),對t+1時刻輸入的狀態(tài)變量st+1和動作變量μ(st+1)的響應(yīng);
將S401中的經(jīng)驗元組和優(yōu)先度ranzkt作為t時刻的數(shù)據(jù)儲存于經(jīng)驗回放池中,表示如下:
D={rankt,dt=[st,at,rt,st+1]|t=1,2,...}
其中,D即經(jīng)驗回放池;
S403.對于D中任一經(jīng)驗dj,定義其被選擇的概率為其中選擇得到的一組經(jīng)驗表示為dj=[st,at,rt,st+1];α為調(diào)整因子,用于調(diào)整概率Pj的具體數(shù)值;
S404.以dj中數(shù)據(jù)為依據(jù),進行價值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)及其對應(yīng)目標網(wǎng)絡(luò)的更新,具體的,確定價值網(wǎng)絡(luò)q的評估方程:
式中,rj表示以j為索引值的獎勵值;代表選取最大使得Q(sj+1,aj+1)最大化的動作變量aj,并生成此價值網(wǎng)絡(luò)對選定動作變量和狀態(tài)變量的響應(yīng);
隨后建立價值網(wǎng)絡(luò)的更新誤差計算公式:
LQ(j)=[rj+γQ'(sj+1,μ(sj+1)|θQ')-Q(sj,aj|θQ)]2
進而確定策略網(wǎng)絡(luò)μ的評估方程:
Φ(θμ)=E[Q(sj,μ(sj))]
式中,E(·)表示求取數(shù)學期望;依據(jù)目標相對于策略網(wǎng)絡(luò)μ的梯度,策略網(wǎng)絡(luò)μ的更新誤差為:
S405.對目標網(wǎng)絡(luò)Q'和μ'采用如下軟更新策略:
θQ′←τθQ+(1-τ)θQ′
θμ'←τθμ+(1-τ)θμ'
S406.將時間t增加1個步長,重新回到S401,S401-S406循環(huán)執(zhí)行直至達到定義的最大持續(xù)時間步長tL,即t=tL時,則結(jié)束本回合;
S5.循環(huán)執(zhí)行S3-S4,直至策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)收斂,導(dǎo)出策略網(wǎng)絡(luò)成為深度強化學習快速充電策略;
S6.實時采集充電電流、端電壓、環(huán)境溫度、電池表面溫度,設(shè)計基于模型的狀態(tài)觀測器,實時估計強化學習狀態(tài)空間內(nèi)的各個變量;
S7.依據(jù)S6中的測量值與估計值,使用S5中訓練成熟的深度強化學習控制策略確定當前時刻的最優(yōu)充電動作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學,未經(jīng)北京理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011087624.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





