[發(fā)明專利]一種基于確定性策略梯度學(xué)習(xí)的PHEV能量管理方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910659905.2 | 申請(qǐng)日: | 2019-07-22 |
| 公開(kāi)(公告)號(hào): | CN110341690B | 公開(kāi)(公告)日: | 2020-08-04 |
| 發(fā)明(設(shè)計(jì))人: | 何洪文;李岳騁;彭劍坤 | 申請(qǐng)(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號(hào): | B60W20/11 | 分類號(hào): | B60W20/11;B60W50/00;G06N3/04 |
| 代理公司: | 北京市誠(chéng)輝律師事務(wù)所 11430 | 代理人: | 范盈 |
| 地址: | 100081 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 確定性 策略 梯度 學(xué)習(xí) phev 能量 管理 方法 | ||
1.一種基于確定性策略梯度學(xué)習(xí)的PHEV能量管理方法,其特征在于:具體包括以下步驟:
步驟一、利用深層神經(jīng)DNN網(wǎng)絡(luò)分別搭建動(dòng)作Actor網(wǎng)絡(luò)和動(dòng)作價(jià)值Critic網(wǎng)絡(luò),共同組成確定性策略梯度學(xué)習(xí)算法的基本網(wǎng)絡(luò)框架即AC網(wǎng)絡(luò),以構(gòu)建PHEV能量管理策略學(xué)習(xí)網(wǎng)絡(luò);并對(duì)所述AC網(wǎng)絡(luò)參數(shù)進(jìn)行初始化和狀態(tài)數(shù)據(jù)的歸一化處理;
步驟二、對(duì)所述動(dòng)作價(jià)值Critic網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,定義并初始化用于存儲(chǔ)后續(xù)訓(xùn)練產(chǎn)生的狀態(tài)轉(zhuǎn)移樣本的存儲(chǔ)空間作為經(jīng)驗(yàn)池,獲取初始時(shí)刻的狀態(tài)向量,采用∈退火貪婪策略選擇當(dāng)前狀態(tài)下的動(dòng)作向量,存儲(chǔ)當(dāng)前時(shí)刻的狀態(tài)轉(zhuǎn)移樣本,并對(duì)所述動(dòng)作價(jià)值Critic網(wǎng)絡(luò)進(jìn)行更新;以網(wǎng)絡(luò)更新迭代次數(shù)作為Critic網(wǎng)絡(luò)預(yù)訓(xùn)練和AC網(wǎng)絡(luò)訓(xùn)練是否滿足要求的依據(jù);
步驟三、基于所述步驟二中所選擇的當(dāng)前狀態(tài)下的動(dòng)作向量,獲取動(dòng)力系統(tǒng)的控制動(dòng)作量和駕駛需求,計(jì)算PHEV動(dòng)力系統(tǒng)的動(dòng)力響應(yīng),并評(píng)估發(fā)動(dòng)機(jī)燃油消耗水平,計(jì)算動(dòng)力電池的狀態(tài)轉(zhuǎn)移,獲取下一時(shí)刻狀態(tài)向量并計(jì)算獎(jiǎng)賞信號(hào);
步驟四、對(duì)動(dòng)力電池荷電狀態(tài)SOC參考值初始化并更新SOC偏差,并依次對(duì)累積行駛距離以及所述動(dòng)力電池參考值進(jìn)行更新;
步驟五、獲取當(dāng)前時(shí)刻狀態(tài)向量并計(jì)算當(dāng)前時(shí)刻動(dòng)作向量,調(diào)整動(dòng)作向量輸出頻率,動(dòng)力系統(tǒng)響應(yīng)動(dòng)作向量后對(duì)下一時(shí)刻重復(fù)本步驟的能量管理策略在線應(yīng)用過(guò)程直到行駛結(jié)束;
步驟六、根據(jù)實(shí)時(shí)行駛車速更新速度轉(zhuǎn)移概率矩陣,記錄瞬時(shí)燃油消耗率,更新油耗移動(dòng)平均值,檢測(cè)是否需要更新能量管理策略;如需要更新,則執(zhí)行生成新的訓(xùn)練工況,用于所述步驟一與步驟二對(duì)所建立的PHEV能量管理策略模型網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)所述模型網(wǎng)絡(luò)的更新。
2.如權(quán)利要求1所述的方法,其特征在于:所述步驟一具體包括以下步驟:
(1.1)定義狀態(tài)空間,建立電量消耗階段能量管理策略πBM并訓(xùn)練,其狀態(tài)空間維數(shù)為Nstate=7,狀態(tài)空間S和狀態(tài)向量s(k)分別定義如下:
S={SoC,ΔSoC,Treq,Preq,acc,v,d}
s(k)=[SoC(k),ΔSoC(k),Treq(k),Preq(k),acc(k),v(k),d(k)],s(k)∈S
其中,ΔSoC為SoC偏差值,Treq為需求驅(qū)動(dòng)轉(zhuǎn)矩,需求驅(qū)動(dòng)功率Preq=Wreq·Treq,Wreq為需求驅(qū)動(dòng)轉(zhuǎn)速,acc為車輛加速度,v為車速,d為行駛距離,k為當(dāng)前時(shí)刻;
(1.2)建立Actor網(wǎng)絡(luò),記為a=μ(s|θμ),μ表示Actor網(wǎng)絡(luò),其網(wǎng)絡(luò)參數(shù)為θμ,以狀態(tài)向量s為輸入,輸出動(dòng)作向量為a,策略網(wǎng)絡(luò)結(jié)構(gòu)為:輸入層-全連接層-輸出層;
(1.3)建立Critic網(wǎng)絡(luò),具有兩路支流的深層全連接神經(jīng)網(wǎng)絡(luò),記為q=Q(s,a|θQ)=V(s|θV)+A(a|θA),Q表示Critic網(wǎng)絡(luò),其參數(shù)集合和動(dòng)作價(jià)值輸出分別為θQ和q,具體分為以θV為參數(shù)的狀態(tài)價(jià)值網(wǎng)絡(luò)支流V和以θA為參數(shù)的動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)支流A;兩路支流具有相同的隱含層結(jié)構(gòu);狀態(tài)價(jià)值網(wǎng)絡(luò)支流輸入層輸入維數(shù)與狀態(tài)空間維數(shù)Nstate相同,輸出層為線性標(biāo)量輸出;動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)支流輸入層輸入維數(shù)與動(dòng)作空間維數(shù)Naction相同,輸出層為線性標(biāo)量輸出;
(1.4)初始化網(wǎng)絡(luò)參數(shù):采用Xavier初始化方法,產(chǎn)生Actor和Critic網(wǎng)絡(luò)的初始網(wǎng)絡(luò)權(quán)重和偏置,具體地,產(chǎn)生區(qū)間中的均勻分布產(chǎn)生網(wǎng)絡(luò)初始化參數(shù),其中fanin和fanout分別為所需初始化參數(shù)層的輸入和輸出神經(jīng)元個(gè)數(shù);
(1.5)建立用于穩(wěn)定訓(xùn)練的目標(biāo)網(wǎng)絡(luò):復(fù)制一套與步驟(1.2)-(1.4)所建立的Actor和Critic網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)均相同的網(wǎng)絡(luò),記為目標(biāo)Actor網(wǎng)絡(luò)a=和目標(biāo)Critic網(wǎng)絡(luò)其中μT表示目標(biāo)Actor網(wǎng)絡(luò),其參數(shù)為QT表示目標(biāo)Critic網(wǎng)絡(luò),其參數(shù)為
(1.6)訓(xùn)練數(shù)據(jù)歸一化預(yù)處理:選定訓(xùn)練工況,計(jì)算獲得其速度序列、加速度序列、以及需求轉(zhuǎn)矩和功率序列,并分別計(jì)算其均值和標(biāo)準(zhǔn)差并保存,按照標(biāo)準(zhǔn)歸一化通用公式進(jìn)行歸一化處理
其中,mean(X)和std(X)分別表示輸入數(shù)據(jù)X的均值和標(biāo)準(zhǔn)差;
當(dāng)且僅當(dāng)此時(shí)為電量消耗階段策略訓(xùn)練,需對(duì)行駛距離d按最大行駛里程進(jìn)行線性歸一化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910659905.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種計(jì)算機(jī)網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽(tīng)系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實(shí)體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評(píng)估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 處理圖像的方法與裝置
- 一種磁共振成像系統(tǒng)的梯度磁場(chǎng)產(chǎn)生方法及其裝置
- 用于驅(qū)動(dòng)梯度線圈的梯度放大器系統(tǒng)及配置方法
- 一種基于相對(duì)梯度的圖像質(zhì)量客觀評(píng)價(jià)方法
- 一種優(yōu)化平衡穩(wěn)態(tài)自由進(jìn)動(dòng)序列的方法與裝置
- 一種重力梯度儀自標(biāo)定方法及離心梯度補(bǔ)償方法
- 梯度線圈及磁共振成像系統(tǒng)
- 一種磁場(chǎng)方向和梯度方向夾角可調(diào)的二維梯度磁場(chǎng)系統(tǒng)
- 一種聯(lián)邦推薦梯度獲取方法、裝置、智能終端及存儲(chǔ)介質(zhì)
- 一種超導(dǎo)全張量磁梯度探頭及超導(dǎo)全張量磁梯度測(cè)量系統(tǒng)





