[發(fā)明專(zhuān)利]基于強(qiáng)化學(xué)習(xí)的純電動(dòng)汽車(chē)動(dòng)力電池冷卻系統(tǒng)控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811135929.X | 申請(qǐng)日: | 2018-09-28 |
| 公開(kāi)(公告)號(hào): | CN109193075B | 公開(kāi)(公告)日: | 2020-06-05 |
| 發(fā)明(設(shè)計(jì))人: | 張炳力;高峰 | 申請(qǐng)(專(zhuān)利權(quán))人: | 合肥工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | H01M10/613 | 分類(lèi)號(hào): | H01M10/613;H01M10/625;H01M10/633;H01M10/635;H01M10/6568 |
| 代理公司: | 合肥金安專(zhuān)利事務(wù)所(普通合伙企業(yè)) 34114 | 代理人: | 吳娜 |
| 地址: | 230009 安*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強(qiáng)化 學(xué)習(xí) 電動(dòng)汽車(chē) 動(dòng)力電池 冷卻系統(tǒng) 控制 方法 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的純電動(dòng)汽車(chē)?yán)鋮s系統(tǒng)控制方法,該方法包括下列順序的步驟:
(1)獲取純電動(dòng)汽車(chē)動(dòng)力電池溫度、動(dòng)力電池工作電流,以及環(huán)境溫度信息;
(2)基于純電動(dòng)汽車(chē)動(dòng)力電池溫度、動(dòng)力電池工作電流,以及環(huán)境溫度信息確定狀態(tài)空間,基于待優(yōu)化的PID參數(shù)構(gòu)建動(dòng)作空間,基于動(dòng)力電池溫度與最佳工作溫度的溫度差以及電子水泵轉(zhuǎn)速加速度的加權(quán)平方和確定回報(bào)函數(shù),并基于所述狀態(tài)空間、動(dòng)作空間和回報(bào)函數(shù)構(gòu)建DDPG算法模型;對(duì)所構(gòu)建的DDPG算法模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,得到一組最優(yōu)電子水泵PID控制參數(shù);
(3)通過(guò)PID輸入量得出PID控制量,并基于該P(yáng)ID控制量控制電子水泵工作;
(4)電子水泵工作改變動(dòng)力電池冷卻系統(tǒng)中冷卻液的流量,達(dá)到動(dòng)力電池降溫的目的,同時(shí)將動(dòng)力電池信息傳遞給環(huán)境感知模塊,返回步驟(1);
所述步驟(2)中構(gòu)建DDPG算法模型具體是指:
確定DDPG算法狀態(tài)空間、動(dòng)作空間和回報(bào)函數(shù);
狀態(tài)空間包含3個(gè)元素:動(dòng)力電池溫度、動(dòng)力電池工作電流和環(huán)境溫度;
動(dòng)作空間包含3個(gè)PID控制參數(shù),分別為:比例參數(shù)KP、微分參數(shù)KI和積分參數(shù)KD;
回報(bào)函數(shù):?jiǎn)未蝿?dòng)作的回報(bào)r定義為動(dòng)力電池溫度與最佳工作溫度的溫度差以及電子水泵轉(zhuǎn)速加速度的加權(quán)平方和;到目前為止的所有動(dòng)作的累積總回報(bào)定義為:
式中:γ為折扣因子;ri為單次動(dòng)作的回報(bào);為數(shù)學(xué)期望。
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的純電動(dòng)汽車(chē)?yán)鋮s系統(tǒng)控制方法,其特征在于:所述步驟(2)中對(duì)所構(gòu)建的DDPG算法模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,得到一組最優(yōu)電子水泵PID控制參數(shù)具體是指:
構(gòu)建評(píng)價(jià)網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò),其中評(píng)價(jià)網(wǎng)絡(luò)進(jìn)行Q函數(shù)計(jì)算得到Q值:Q(s,a|θQ),輸入為狀態(tài)s、動(dòng)作a,輸出為Q函數(shù)Q(s,a|θQ),包含3個(gè)隱藏層,都是FC全連接網(wǎng)絡(luò)層;動(dòng)作網(wǎng)絡(luò)進(jìn)行狀態(tài)s到動(dòng)作的映射得到a=μ(s|θμ),輸入為狀態(tài)s,輸出為動(dòng)作a,包含1個(gè)隱藏層,采用FC全連接網(wǎng)絡(luò)層;
評(píng)價(jià)網(wǎng)絡(luò)分為Online評(píng)價(jià)網(wǎng)絡(luò)和Target評(píng)價(jià)網(wǎng)絡(luò),動(dòng)作網(wǎng)絡(luò)分為Online動(dòng)作網(wǎng)絡(luò)和Target動(dòng)作網(wǎng)絡(luò);Target評(píng)價(jià)網(wǎng)絡(luò)和Online評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)相同,Target動(dòng)作網(wǎng)絡(luò)和Online動(dòng)作網(wǎng)絡(luò)結(jié)構(gòu)相同;
對(duì)Online評(píng)價(jià)網(wǎng)絡(luò)和Online動(dòng)作網(wǎng)絡(luò)的參數(shù)θQ、θμ進(jìn)行隨機(jī)初始化;通過(guò)這兩個(gè)網(wǎng)絡(luò)參數(shù)θQ和θμ來(lái)初始化Target評(píng)價(jià)網(wǎng)絡(luò)和Target動(dòng)作網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θQ′和θμ′,同時(shí)開(kāi)辟一個(gè)空間R作為Memory Replay經(jīng)驗(yàn)回放的儲(chǔ)存空間;
初始化完成后,開(kāi)始進(jìn)行迭代求解:
通過(guò)當(dāng)前網(wǎng)絡(luò)加上高斯擾動(dòng)選擇一個(gè)動(dòng)作進(jìn)行探索,動(dòng)作at=μ(s|θμ)+Nt,其中Nt是一個(gè)高斯擾動(dòng);
在當(dāng)前狀態(tài)st下執(zhí)行動(dòng)作at,得到相應(yīng)的獎(jiǎng)勵(lì)rt和下一個(gè)狀態(tài)st+1,并且將這個(gè)過(guò)程形成的元組(st,at,rt,st+1)儲(chǔ)存到Memory Replay空間R中;
從Memory Replay空間R隨機(jī)選擇一個(gè)小批量的元組數(shù)據(jù),作為Online動(dòng)作網(wǎng)絡(luò)和Online評(píng)價(jià)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),用(si,ai,ri,si+1)表示單個(gè)數(shù)據(jù);si為狀態(tài),ai為執(zhí)行動(dòng)作,ri為相應(yīng)的獎(jiǎng)勵(lì),si+1為下一個(gè)狀態(tài);
更新Online評(píng)價(jià)網(wǎng)絡(luò):
定義Online評(píng)價(jià)網(wǎng)絡(luò)Loss函數(shù):
其中,yi為標(biāo)簽:yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),N為元組數(shù)據(jù)個(gè)數(shù);
求出Loss函數(shù)關(guān)于θQ的梯度:通過(guò)最小化Loss函數(shù)來(lái)更新Online評(píng)價(jià)網(wǎng)絡(luò);
更新Online評(píng)價(jià)網(wǎng)絡(luò)結(jié)束后,再進(jìn)行Online動(dòng)作網(wǎng)絡(luò)的更新:
計(jì)算J(θμ)的梯度:
依據(jù)梯度下降的原則對(duì)Online動(dòng)作網(wǎng)絡(luò)進(jìn)行更新;
最后利用更新的Online評(píng)價(jià)網(wǎng)絡(luò)和Online動(dòng)作網(wǎng)絡(luò)的參數(shù)θQ和θμ對(duì)Target評(píng)價(jià)網(wǎng)絡(luò)和Target動(dòng)作網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θQ′和θμ′進(jìn)行更新:
式中:τ為更新率,τ<<1,由此構(gòu)建一個(gè)收斂的神經(jīng)網(wǎng)絡(luò);
計(jì)算當(dāng)前PID控制參數(shù)KP、KI、KD下的總回報(bào),當(dāng)J(θμ)達(dá)到最小值時(shí),當(dāng)前的控制策略達(dá)到最優(yōu);當(dāng)J(θμ)非最小值時(shí),依據(jù)策略梯度更新策略,重新選擇KP、KI、KD參數(shù),實(shí)施控制;循環(huán)網(wǎng)絡(luò)更新流程,即首先更新Online評(píng)價(jià)網(wǎng)絡(luò),再進(jìn)行Online動(dòng)作網(wǎng)絡(luò)的更新,最后利用更新的Online評(píng)價(jià)網(wǎng)絡(luò)和Online動(dòng)作網(wǎng)絡(luò)的參數(shù)θQ和θμ對(duì)Target評(píng)價(jià)網(wǎng)絡(luò)和Target動(dòng)作網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θQ′和θμ′進(jìn)行更新,使得不同狀態(tài)下對(duì)應(yīng)的控制策略的總回報(bào)J(θμ)達(dá)到最小值時(shí),此時(shí)PID參數(shù)KP、KI、KD最優(yōu),PID的控制量逼近期望值。
3.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的純電動(dòng)汽車(chē)?yán)鋮s系統(tǒng)控制方法,其特征在于:在所述步驟(3)中,采用如下公式計(jì)算PID控制量:
其中KP,KI,KD分別表示比例、微分和積分參數(shù);輸入量e(t)為動(dòng)力電池當(dāng)前溫度與期望溫度的差值,控制量u(t)為電子水泵的轉(zhuǎn)速。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于合肥工業(yè)大學(xué),未經(jīng)合肥工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811135929.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 電動(dòng)汽車(chē)運(yùn)行系統(tǒng)
- 一種電動(dòng)汽車(chē)城域充電管理系統(tǒng)
- 一種安全性高的電動(dòng)汽車(chē)設(shè)計(jì)系統(tǒng)
- 一種電動(dòng)汽車(chē)電能共享方法
- 電動(dòng)汽車(chē)電能共享方法
- 一種電動(dòng)汽車(chē)充電方法和系統(tǒng)
- 一種電動(dòng)汽車(chē)充電方法
- 電動(dòng)汽車(chē)的故障處理方法、裝置、中控系統(tǒng)和電動(dòng)汽車(chē)
- 電動(dòng)汽車(chē)充電調(diào)度系統(tǒng)及控制方法
- 基于用戶(hù)需求松弛度的電動(dòng)汽車(chē)需求響應(yīng)能力評(píng)估方法





