[發(fā)明專利]一種基于深度強化學(xué)習(xí)的智能充電站優(yōu)化選擇系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010310702.5 | 申請日: | 2020-04-20 |
| 公開(公告)號: | CN111523722B | 公開(公告)日: | 2022-04-12 |
| 發(fā)明(設(shè)計)人: | 林海;劉威 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/06;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強化 學(xué)習(xí) 智能 充電站 優(yōu)化 選擇 系統(tǒng) | ||
1.一種基于智能充電系統(tǒng)的深度強化學(xué)習(xí)充電站優(yōu)化選擇方法,其特征在于,
所述深度強化學(xué)習(xí)充電站優(yōu)化選擇方法,包括以下步驟:
步驟1:中心服務(wù)器管理多個充電站,將管理區(qū)域劃分成多個區(qū)域,將一天劃分成多個時間損耗等級時段;
步驟2:信息獲取終端通過充電樁檢測模塊實時檢測可用充電樁數(shù)量,通過車輛識別系統(tǒng)統(tǒng)計進(jìn)出站車輛數(shù),建立排隊車輛數(shù)量與可用充電樁數(shù)量之間關(guān)系模型,進(jìn)一步構(gòu)建充電站的排隊狀態(tài),在充電站的排隊狀態(tài)發(fā)生改變或每隔一定時間將充電站的排隊狀態(tài)無線傳輸至中心服務(wù)器;
步驟3:微處理器將用戶充電請求、用戶車輛的經(jīng)度、用戶車輛的緯度、用戶車輛的已使用電量通過車輛無線通信模塊無線傳輸至所述中心服務(wù)器;
步驟4:中心服務(wù)器記錄第n次請求時間;并根據(jù)用戶車輛的經(jīng)度、用戶車輛的緯度判定用戶車輛所屬區(qū)域;且將當(dāng)前時刻轉(zhuǎn)換成時間損耗;通過用戶車輛所屬區(qū)域、用戶車輛的已使用電量、時間損耗、所有充電站的排隊狀態(tài)構(gòu)建用戶充電請求的輸入狀態(tài);
步驟5:構(gòu)建深度神經(jīng)網(wǎng)絡(luò),隨機初始化其參數(shù),深度神經(jīng)網(wǎng)絡(luò)根據(jù)用戶充電請求的輸入狀態(tài)估計充電站的未來總收益,進(jìn)一步得到推薦充電站,將推薦充電站無線傳輸至觸摸屏顯示,待用戶車輛在推薦充電站充電完成計算充電收益,等待下一次用戶充電請求到來構(gòu)建下一次用戶充電請求的輸入狀態(tài)以及四元組,并將四元組作為訓(xùn)練數(shù)據(jù)保存至經(jīng)驗池中;
步驟6:中心服務(wù)器從經(jīng)驗池中隨機提取一定數(shù)量四元組構(gòu)建訓(xùn)練集,依次將訓(xùn)練集中每個四元組提供給深度神經(jīng)網(wǎng)絡(luò)計算損失函數(shù),優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的參數(shù);
所述智能充電系統(tǒng)包括:微處理器、觸摸屏、GPS定位模塊、電量檢測模塊、車輛無線通信模塊、車輛識別系統(tǒng)、充電樁檢測模塊、信息獲取終端、充電站無線通信模塊、中心服務(wù)器;
所述GPS定位模塊與所述微處理器通過有線方式連接;所述電量檢測模塊與所述微處理器通過有線方式連接;所述觸摸屏與所述微處理器通過有線方式連接;所述微處理器與所述車輛無線通信模塊通過有線方式連接;所述車輛無線通信模塊與所述中心服務(wù)器通過無線方式連接;所述充電樁檢測裝置與所述信息獲取終端通過有線方式連接;所述車輛識別系統(tǒng)與所述信息獲取終端通過有線方式連接;所述信息獲取終端與所述充電站無線通信模塊通過有線方式連接;所述充電站無線通信模塊與中心服務(wù)器通過無線方式連接;
所述的微處理器、觸摸屏、GPS定位模塊、電量檢測模塊、車輛無線通信模塊部署于用戶車輛上;所述充電樁檢測裝置部署于充電樁上;所述的車輛識別系統(tǒng)、信息獲取終端、充電站無線通信模塊均部署于充電站里;
所述微處理器協(xié)調(diào)控制所述的GPS定位模塊、電量檢測模塊、車輛無線通信模塊;所述微處理器控制所述的觸摸屏實現(xiàn)人機交互;
所述GPS定位模塊采集用戶車輛的經(jīng)度、用戶車輛的緯度,將用戶車輛的經(jīng)度、用戶車輛的緯度傳輸至所述微處理器;
所述電量檢測模塊實時采集用戶車輛的已使用電量,將用戶車輛的已使用電量傳輸至所述微處理器;
在用戶車輛需要充電時,用戶通過所述觸摸屏輸入用戶充電請求并傳輸至所述微處理器,所述微處理器將用戶充電請求、用戶車輛的經(jīng)度、用戶車輛的緯度、用戶車輛的已使用電量通過車輛無線通信模塊無線傳輸至所述中心服務(wù)器;
所述充電樁檢測模塊實時檢測可用充電樁數(shù)量,將可用充電樁數(shù)量有線傳輸?shù)叫畔@取終端;
所述車輛識別系統(tǒng),以站內(nèi)攝像頭加圖像處理為主,刷卡入站為輔的方式識別進(jìn)出站車輛,將站內(nèi)車輛變化有線傳輸?shù)叫畔@取終端;
所述信息獲取終端根據(jù)站內(nèi)車輛變化計算排隊車輛數(shù)量,并依照可用充電樁數(shù)量、排隊車輛數(shù)量得到充電站的排隊狀態(tài),通過充電站無線通信模塊將充電站的排隊狀態(tài)無線傳輸至所述中心服務(wù)器;
所述中心服務(wù)器根據(jù)用戶充電請求時的時間、用戶車輛的經(jīng)度、用戶車輛的緯度、用戶車輛的已使用電量、充電站狀態(tài),通過一種基于深度強化學(xué)習(xí)的智能充電站優(yōu)化選擇方法實現(xiàn)充電站優(yōu)化選擇;
所述中心服務(wù)器記錄用戶相關(guān)充電信息作為訓(xùn)練數(shù)據(jù)保存至經(jīng)驗池中,系統(tǒng)優(yōu)化階段從經(jīng)驗池提取數(shù)據(jù)構(gòu)建訓(xùn)練集,對系統(tǒng)進(jìn)行調(diào)整優(yōu)化;
步驟1所述充電站的數(shù)量為K;
步驟1所述管理區(qū)域劃分成多個區(qū)域為:
管理區(qū)域劃分成L個區(qū)域,具體為:
area1、area2、...、areaL
其中,areal,l∈[1,L]為第I個區(qū)域;
且areal,l∈[1,L]內(nèi)任意不同兩點,到達(dá)另一區(qū)域所用時間相同;
且一個區(qū)域內(nèi)至多存在一個充電站,則K≤L;
步驟1所述將一天劃分成多個時間損耗等級時段為:
中心服務(wù)器將一天劃分成T個時間損耗等級時段;
t,t∈[1,T]表示第t個時間損耗等級時段,t越高,則第t個時間損耗等級時段內(nèi)用戶車輛去往充電站時間損耗越多;
步驟2所述可用充電樁數(shù)量為:
pk∈[1,Pk],k∈[1,K]
其中,pk表示第k個充電站的可用充電樁數(shù)量,Pk表示第k個充電站的充電樁數(shù)量總數(shù),K為充電站的數(shù)量;
步驟2所述統(tǒng)計進(jìn)出站車輛數(shù)為:
需要充電車輛入站排隊充電,入口車輛識別系統(tǒng)每識別一輛車輛,站內(nèi)車輛數(shù)d加1;出口車輛識別系統(tǒng)每識別一輛車輛,站內(nèi)車輛數(shù)d減1;
步驟2所述排隊車輛數(shù)量為:
ck=max(0,d-Pk+pk),k∈[1,K]
其中,ck表示第k個充電站的排隊車輛數(shù)量,d表示站內(nèi)車輛數(shù),Pk表示第k個充電站的充電樁數(shù)量總數(shù),pk表示第k個充電站的可用充電樁數(shù)量,K為充電站的數(shù)量;
步驟2所述建立排隊車輛數(shù)量與可用充電樁數(shù)量之間關(guān)系模型為:
ck>0→pk=0
pk>0→ck=0
步驟2所述進(jìn)一步構(gòu)建充電站的排隊狀態(tài)為:
根據(jù)排隊車輛數(shù)量與可用充電樁數(shù)量之間關(guān)系模型構(gòu)建充電站的排隊狀態(tài),具體定義為:
其中,mk表示第k個充電站的排隊狀態(tài),pk表示第k個充電站的可用充電樁數(shù)量,ck表示第k個充電站的排隊車輛數(shù)量,K為充電站的數(shù)量;
步驟2所述在充電站的排隊狀態(tài)發(fā)生改變或每隔一定時間將充電站的排隊狀態(tài)無線傳輸至中心服務(wù)器為:
所述信息獲取終端在充電站的排隊狀態(tài)發(fā)生改變即mk的值發(fā)生變化或每隔一定時間時,通過充電站無線通信模塊將充電站的排隊狀態(tài)即mk無線傳輸至所述中心服務(wù)器;
步驟3所述用戶充電請求為第n次用戶充電請求,n=H+1;
其中,H為中心服務(wù)器經(jīng)驗池中保存訓(xùn)練數(shù)據(jù)數(shù)量;
步驟3所述用戶車輛的經(jīng)度為xn,即第n次用戶充電請求時用戶車輛的經(jīng)度;
步驟3所述用戶車輛的緯度為yn,即第n次用戶充電請求時用戶車輛的緯度;
步驟3所述用戶車輛的已使用電量為vn,即第n次用戶充電請求時用戶車輛的已使用電量;
步驟4所述記錄第n次請求時間,存儲為requestn;
步驟4所述根據(jù)用戶車輛的經(jīng)度、用戶車輛的緯度判定用戶車輛所屬區(qū)域:
中心服務(wù)器將用戶車輛經(jīng)緯度,與步驟1劃分區(qū)域經(jīng)緯度范圍進(jìn)行比對,確定用戶車輛所在區(qū)域即areal,n;
步驟4所述將當(dāng)前時刻轉(zhuǎn)換成時間損耗:
中心服務(wù)器將當(dāng)前時刻與步驟1劃分的時間損耗等級的時間范圍進(jìn)行對比,確定當(dāng)前時刻的時間損耗tn,作為第n次用戶請求的時間損耗;
步驟4所述用戶充電請求的輸入狀態(tài)為:
Sn={areal,n,vn,tn,totaln}
totaln=(mn,1,mn,2,...,mn,K)
其中,aeral,n表示第n次用戶充電請求時用戶車輛所屬區(qū)域,vn表示第n次用戶充電請求時用戶車輛的已使用電量,tn表示第n次用戶充電請求時的時間損耗等級時段,totaln表示第n次用戶充電請求時所有充電站的排隊狀態(tài),mn,k,k∈[1,K]表示第n次用戶充電請求時第k個充電站的排隊狀態(tài);
步驟5所述構(gòu)建深度神經(jīng)網(wǎng)絡(luò),隨機初始化其參數(shù)具體為:
深度神經(jīng)網(wǎng)絡(luò)共M層,第i層有mi個神經(jīng)元;
第1層為輸入層,共K+3個神經(jīng)元,即m1=K+3,對應(yīng)步驟4中所述的第n次用戶充電請求的輸入狀態(tài),即Sn={aeral,n,vn,tn,(mn,1,mn,2,...,mn,K)};
第2~M-1層為隱藏層,層內(nèi)神經(jīng)元數(shù)滿足:
mi>K+3
i∈[2,M-1]
并另設(shè)偏置單元,單元值為1;
第M層為輸出層,共K個神經(jīng)元,即mM=K,對應(yīng)Qn=(qn,1,qn,2,...,qn,K);
Qn=(qn,1,qn,2,...,qn,K)表示步驟5所述充電站的未來總收益為:
Qn=(qn,1,qn,2,...,qn,K)
其中,Qn表示第n次用戶充電請求時充電站的未來總收益,qn,k,k∈[1,K]表示第n次用戶充電請求時選擇第k充電站的未來總收益,K表示充電站的數(shù)量;
所述神經(jīng)網(wǎng)絡(luò)層間各神經(jīng)元之間全連接,第i層中第j個神經(jīng)元對第i+1層中第r個神經(jīng)元的權(quán)重表示為
第i層的偏置表示為bi,i∈[2,M-1];
所述權(quán)重、偏置在初始化時隨機賦值,后在系統(tǒng)優(yōu)化階段中調(diào)整;步驟5所述進(jìn)一步得到推薦充電站為:
Qn=(qn,1,qn,2,...,qn,K)中選擇qn,k,k∈[1,K]的最大值,對應(yīng)的充電站為第n次用戶充電請求時推薦充電站即an;
步驟5所述將推薦充電站無線傳輸至觸摸屏顯示為:
將an無線傳輸至所述車輛無線通信模塊,進(jìn)一步傳輸至所述微處理器,所述微處理器控制所述觸摸屏顯示推薦充電站即an;
步驟5所述待用戶車輛在推薦充電站充電完成計算充電收益為:
用戶車輛駛往推薦充電站an,排隊、充電,直到充電完成,用戶車輛向中心服務(wù)器發(fā)送本次充電完成,中心服務(wù)器記錄第n次充電完成時間為completen;
中心服務(wù)器接收到第n次充電請求充電完成后,根據(jù)記錄的用戶充電請求完成時間計算第n次充電請求的總耗時costn,并計算第n次充電請求的充電收益rn,定義如下:
costn=completen-requestn
其中,requestn為第n次請求時間,completen為第n次充電完成時間,rn為第n次用戶充電請求的充電收益,c為定值,costn為第n次用戶充電請求的總耗時;
步驟5所述等待下一次用戶充電請求到來構(gòu)建下一次用戶充電請求的輸入狀態(tài)以及四元組,并保存四元組至經(jīng)驗池中為:
中心服務(wù)器等待第n+1次用戶充電請求到來,通過步驟4構(gòu)建第n+1次用戶充電請求的輸入狀態(tài)Sn+1;
步驟5所述四元組為:(Sn,an,rn,Sn+1);
其中,Sn第n次用戶充電請求的輸入狀態(tài),Sn+1表示第n+1次用戶充電請求的輸入狀態(tài),rn為第n次用戶充電請求的充電收益,an為第n次用戶充電請求時推薦充電站;
步驟5所述經(jīng)驗池為中心服務(wù)器存儲四元組的空間,其存儲四元組數(shù)量為H;
步驟5所述經(jīng)驗池內(nèi)存儲四元組為:
(S1,a1,r1,S2)、(S2,a2,r2,S3)、...、(SH,aH,rH,SH+1);
步驟6所述中心服務(wù)器從經(jīng)驗池中隨機提取一定數(shù)量四元組構(gòu)建訓(xùn)練集為:
中心服務(wù)器從經(jīng)驗池中提取h個四元組作為本次系統(tǒng)優(yōu)化階段訓(xùn)練集,認(rèn)定經(jīng)驗池后b項為新經(jīng)驗紀(jì)錄,被提取概率大,第1~H-b項認(rèn)定舊經(jīng)驗,被提取概率小,其中,H為中心服務(wù)器經(jīng)驗池中保存訓(xùn)練數(shù)據(jù)數(shù)量,第p項被提取概率表示為:
p∈[1,H]
其中,Prob(p)為經(jīng)驗池中第p項被提取的概率,b為新經(jīng)驗紀(jì)錄個數(shù);
步驟6所述提取作為訓(xùn)練集的四元組為:
h∈[1,H]
其中,為訓(xùn)練集中第e個四元組,對應(yīng)經(jīng)驗池內(nèi)存儲四元組中第pe個四元組;
步驟6所述依次將訓(xùn)練集中每個四元組中第pe次用戶充電請求的輸入狀態(tài)即和第pe+1次用戶充電請求的輸入狀態(tài)即輸入至深度神經(jīng)網(wǎng)絡(luò),遍歷h個訓(xùn)練集中四元組,計算損失函數(shù),調(diào)整參數(shù);
深度神經(jīng)網(wǎng)絡(luò)在本次系統(tǒng)優(yōu)化階段共調(diào)整參數(shù)h次;
步驟6所述計算損失函數(shù)優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的參數(shù)為:
深度神經(jīng)網(wǎng)絡(luò)輸入四元組中的計算即深度神經(jīng)網(wǎng)絡(luò)預(yù)估的未來收益大小;
將四元組中輸入到深度神經(jīng)網(wǎng)絡(luò)中計算其中為下當(dāng)前深度神經(jīng)網(wǎng)絡(luò)依照步驟5所選取的推薦充電站;
結(jié)合四元組中的構(gòu)造損失函數(shù),計算誤差;
其中,Loss為損失函數(shù),為第pe次用戶充電請求的充電收益,γ表示折扣系數(shù),其值越高表示未來收益占的比重越高,表示當(dāng)前深度神經(jīng)網(wǎng)絡(luò)預(yù)估能獲未來最大收益的大小,表示當(dāng)前深度神經(jīng)網(wǎng)絡(luò)根據(jù)計算的未來收益大小,即預(yù)估第pe次用戶充電請求的未來收益;
依照當(dāng)前計算的誤差通過反向傳播得到優(yōu)化后深度神經(jīng)網(wǎng)絡(luò)中各層權(quán)重及偏置,即及各層偏置bi,i∈[2,M-1];
其中,為神經(jīng)網(wǎng)絡(luò)第i層第j個神經(jīng)元連接i+1層第r個神經(jīng)元的權(quán)重值,mi為第i層包含神經(jīng)元數(shù),M為神經(jīng)網(wǎng)絡(luò)層數(shù),bi為第i層偏置;
經(jīng)過h次參數(shù)調(diào)整,結(jié)束本次系統(tǒng)優(yōu)化,調(diào)整完畢的各層權(quán)重表示為:
各層偏置表示為
其中,為神經(jīng)網(wǎng)絡(luò)本次系統(tǒng)優(yōu)化后第i層第j個神經(jīng)元連接i+1層第r個神經(jīng)元的權(quán)重值,mi為第i層包含神經(jīng)元數(shù),M為神經(jīng)網(wǎng)絡(luò)層數(shù),為系統(tǒng)優(yōu)化后第i層偏置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010310702.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





