[發(fā)明專利]一種用于中繼充電路徑規(guī)劃的深度強化學習方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110052655.3 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112784481B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計)人: | 黃金才;周玉珍;石建邁;程光權(quán);孫博良 | 申請(專利權(quán))人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06Q10/02;G06Q10/047;G06Q10/083;G06N3/0455;G06N3/092;G06F111/04 |
| 代理公司: | 北京卓嵐智財知識產(chǎn)權(quán)代理有限公司 11624 | 代理人: | 郭智 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 中繼 充電 路徑 規(guī)劃 深度 強化 學習方法 系統(tǒng) | ||
1.一種用于中繼充電路徑規(guī)劃的深度強化學習方法,其特征在于,包括:
構(gòu)建路徑規(guī)劃的數(shù)學模型;
根據(jù)所述數(shù)學模型構(gòu)建所述路徑規(guī)劃的深度強化學習模型;
對所述深度強化學習模型進行訓練,得到所述深度強化學習模型的應(yīng)用模型;
將運輸工具要訪問的客戶點和中繼充電站點的位置輸入所述應(yīng)用模型,得到所述路徑規(guī)劃的解;
其中,所述深度強化學習的方式為:
根據(jù)當前已確定的訪問點和約束條件,采用條件概率公式選擇下一個訪問點,所述訪問點包括客戶點和中繼充電站點;
所述條件概率公式為:
Xt+1=f(yt+1,Xt),
其中,Xt為時刻t的輸入,Y={y1,…,yT},Y為長度為T的客戶點和中繼充電站點的序列,f為狀態(tài)轉(zhuǎn)移函數(shù);
所述約束條件具體包括:
每個客戶點均被運輸工具訪問,且每個客戶點只能被訪問一次;
每個中繼充電站點可以被運輸工具多次訪問、或不被訪問;
運輸工具遍歷所有客戶點后返回到出發(fā)點;
運輸工具在訪問過程中始終保持有足夠電量到達下一個訪問點;
所述構(gòu)建所述路徑規(guī)劃的深度強化學習模型,具體包括:
在編碼器和解碼器基礎(chǔ)之上設(shè)置注意力層;
采用注意力機制計算每一個輸入在下一個時刻t的解碼步驟中的相關(guān)程度;
所述注意力機制包括:
其中,輸入X={xi,i=1,…,n+m+1},n為客戶點數(shù)量,m為中繼充電站點數(shù)量,每個xi是一個元組序列xi為訪問點的二維坐標,為動態(tài)元素用于指示第i個訪問點在時刻t是否被訪問;
所述對所述深度強化學習模型進行訓練,得到所述深度強化學習模型的應(yīng)用模型,包括:
設(shè)定迭代次數(shù)E和訓練用訪問點數(shù)量;
設(shè)定迭代次數(shù)初始值k=0
生成滿足訓練用訪問點數(shù)量的訓練輸入數(shù)據(jù);
根據(jù)訓練輸入數(shù)據(jù)生成訓練路徑規(guī)劃,并計算回報值;
根據(jù)所述回報值更新動作網(wǎng)絡(luò)參數(shù)和評價網(wǎng)絡(luò)參數(shù);
更新迭代次數(shù)k=k+1;
當kE時,返回步驟3,所述步驟3是指生成滿足訓練用訪問點數(shù)量的訓練輸入數(shù)據(jù);
根據(jù)最后得到的動作網(wǎng)絡(luò)參數(shù)和評價網(wǎng)絡(luò)參數(shù)確定所述深度強化學習模型的應(yīng)用模型。
2.一種用于中繼充電路徑規(guī)劃的深度強化學習系統(tǒng),其特征在于,包括:
數(shù)學模型構(gòu)建單元,用于構(gòu)建路徑規(guī)劃的數(shù)學模型;
深度強化學習模型構(gòu)建單元,用于根據(jù)所述數(shù)學模型構(gòu)建所述路徑規(guī)劃的深度強化學習模型;
模型訓練單元,用于對所述深度強化學習模型進行訓練,得到所述深度強化學習模型的應(yīng)用模型;
規(guī)劃單元,用于將運輸工具要訪問的客戶點和中繼充電站點的位置輸入所述應(yīng)用模型,得到所述運輸工具的路徑規(guī)劃的解
其中,所述深度強化學習模型用于:根據(jù)當前已確定的訪問點和約束條件,采用條件概率公式選擇下一個訪問點,所述訪問點包括客戶點和充電站點;
所述條件概率公式為:
Xt+1=f(yt+1,Xt),
其中,Xt為時刻t的輸入,Y={y1,…,yT},Y為長度為T的客戶點和中繼充電站點的序列,f為狀態(tài)轉(zhuǎn)移函數(shù);
所述約束條件具體包括:
每個客戶點均被運輸工具訪問,且每個客戶點只能被訪問一次;
每個中繼充電站點可以被運輸工具多次訪問、或不被訪問;
運輸工具遍歷所有客戶點后返回到出發(fā)點;
運輸工具在訪問過程中始終保持有足夠電量到達下一個訪問點;
所述深度強化學習模型構(gòu)建單元具體用于:
在編碼器和解碼器基礎(chǔ)之上設(shè)置注意力層;
采用注意力機制計算每一個輸入在下一個時刻t的解碼步驟中的相關(guān)程度;
所述注意力機制包括:
其中,輸入X={xi,i=1,…,n+m+1},n為客戶點數(shù)量,m為中繼充電站點數(shù)量,每個xi是一個元組序列xi為訪問點的二維坐標,為動態(tài)元素用于指示第i個訪問點在時刻t是否被訪問;
所述模型訓練單元具體用于:
設(shè)定迭代次數(shù)E和訓練用訪問點數(shù)量;
設(shè)定迭代次數(shù)初始值k=0
生成滿足訓練用訪問點數(shù)量的訓練輸入數(shù)據(jù);
根據(jù)訓練輸入數(shù)據(jù)生成訓練路徑規(guī)劃,并計算回報值;
根據(jù)回報值更新動作網(wǎng)絡(luò)參數(shù)和評價網(wǎng)絡(luò)參數(shù);
更新迭代次數(shù)k=k+1;
當kE時,返回步驟3,所述步驟3是指生成滿足訓練用訪問點數(shù)量的訓練輸入數(shù)據(jù);
根據(jù)最后得到的動作網(wǎng)絡(luò)參數(shù)和評價網(wǎng)絡(luò)參數(shù)確定所述深度強化學習模型的應(yīng)用模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學,未經(jīng)中國人民解放軍國防科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110052655.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:棘輪顯示器支架
- 下一篇:一種便于使用的氣泡膜纏繞打包裝置





