[發(fā)明專利]基于深度強化學(xué)習(xí)的無人車充電路徑規(guī)劃方法在審
| 申請?zhí)枺?/td> | 202210302308.6 | 申請日: | 2022-03-25 |
| 公開(公告)號: | CN114676909A | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設(shè)計)人: | 傅忱忱;郜正軒;吳巍煒;呂妍;周頴豪;徐學(xué)永;夏羽 | 申請(專利權(quán))人: | 東南大學(xué) |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/06;G06Q50/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強化 學(xué)習(xí) 無人 充電 路徑 規(guī)劃 方法 | ||
1.基于深度強化學(xué)習(xí)的無人充電車路徑規(guī)劃方法,其特征在于,包括如下步驟:
步驟(1)收集無線傳感網(wǎng)絡(luò)中的節(jié)點S={s0,s1,s2,…,sn}信息,包含節(jié)點的位置信息和緊急狀況;
步驟(2)搭建基于深度強化學(xué)習(xí)的模型GAPN,包含點編碼器、圖編碼器、解碼器以及注意力機制模塊;
步驟(3)以搜集到節(jié)點信息數(shù)據(jù)為基礎(chǔ),生成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集用于訓(xùn)練GAPN模型;
步驟(4)設(shè)定模型訓(xùn)練目標為最小化節(jié)點死亡率以及最小化充電車路徑成本,定義損失函數(shù),使用強化學(xué)習(xí)actor-critic算法對GAPN進行訓(xùn)練,得到最終的模型;
步驟(5)將無線傳感網(wǎng)絡(luò)中的節(jié)點S={s0,s1,s2,…,sn}信息輸入到GAPN模型中,模型返回充電車訪問所有節(jié)點的方案π={s0,s′1,s′2,…,s′n},其中π是對S的重新排序;
步驟(6)利用一種啟發(fā)式聚類方法結(jié)合GAPN,解決多個充電車場景下的路徑規(guī)劃問題,即無線傳感網(wǎng)絡(luò)具有多個充電車時,調(diào)度充電車以及規(guī)劃充電車路徑的方案。
2.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的無人充電車路徑規(guī)劃方法,其特征在于:步驟(4)中使用的actor-critic算法具體為:
步驟4.1:以GAPN的網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)搭建actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò),θ代表actor網(wǎng)絡(luò)參數(shù),θv代表critic網(wǎng)絡(luò)參數(shù),兩個網(wǎng)絡(luò)的區(qū)別在于actor網(wǎng)絡(luò)在解碼過程中使用平均采樣的方式,critic網(wǎng)絡(luò)采用貪心采樣的策略;
步驟4.2:一批量訓(xùn)練數(shù)據(jù)集合X,共有B個數(shù)據(jù),對于每一個數(shù)據(jù)集實例xi,應(yīng)用當前actor網(wǎng)絡(luò)進行求解最終路徑成本L(πi|xi),應(yīng)用critic網(wǎng)絡(luò)求解其基線期望值
步驟4.3:利用步驟4.2中得到的值進行兩個網(wǎng)絡(luò)批量策略梯度計算,actor網(wǎng)絡(luò)策略梯度gθ計算:critic網(wǎng)絡(luò)策略梯度
步驟4.4:利用梯度下降法對兩個網(wǎng)絡(luò)的參數(shù)分別進行更新,更新規(guī)則分別為:θ=θ+lr*gθ,其中l(wèi)r為學(xué)習(xí)率;
步驟4.5:重復(fù)步驟4.2至步驟4.4T次,T為訓(xùn)練前設(shè)定好的訓(xùn)練代數(shù)。
3.如權(quán)利要求1所述的基于深度強化學(xué)習(xí)的無人充電車路徑規(guī)劃方法,其特征在于:步驟(6)中使用的啟發(fā)式聚類算法具體為:
步驟6.1:定義m個子集合R={S1,S2,…,Sm},用于存放每個充電車將要訪問的節(jié)點;定義e(Sj)為Sj中所有節(jié)點的緊急程度之和;
步驟6.2:對于輸入的無線傳感網(wǎng)絡(luò)節(jié)點集合S,按照節(jié)點的初始緊急程度從大到小排序;
步驟6.3:先將節(jié)點集合S中前m個節(jié)點分別放入m個子集S1,S2,…,Sm中;
步驟6.4:先將集合R按照e(Sj)遞增順序排序,遍歷集合S中剩下的節(jié)點,對于當前遍歷到的節(jié)點si,如果Sj中不存在節(jié)點sk和節(jié)點si的開啟時間之差Ri,k大于旅行時間Γi,k,或者截止時間之差Di,k小于旅行時間Γi,k,則將si放入Sj,否則就更換另一個子集,直至條件滿足;
步驟6.5:得到最終m個子集合R={S1,S2,…,Sm},用于m個充電車任務(wù)執(zhí)行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210302308.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





