[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的無人車充電路徑規(guī)劃方法在審
| 申請?zhí)枺?/td> | 202210302308.6 | 申請日: | 2022-03-25 |
| 公開(公告)號: | CN114676909A | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設(shè)計(jì))人: | 傅忱忱;郜正軒;吳巍煒;呂妍;周頴豪;徐學(xué)永;夏羽 | 申請(專利權(quán))人: | 東南大學(xué) |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/06;G06Q50/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 無人 充電 路徑 規(guī)劃 方法 | ||
本發(fā)明設(shè)計(jì)了一種利用深度強(qiáng)化學(xué)習(xí)模型Graph Attention based Pointer Network(GAPN)為無線傳感器網(wǎng)絡(luò)中的無人車向傳感器節(jié)點(diǎn)進(jìn)行充電的路徑規(guī)劃方法。流程包括如下步驟:(1)收集無線傳感網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的位置坐標(biāo)信息及其電量狀況(2)根據(jù)收集的數(shù)據(jù)生成與其位置信息相同分布的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集;(3)將制作好的數(shù)據(jù)集用于GAPN模型訓(xùn)練;(4)將收集到的節(jié)點(diǎn)信息輸入到完成訓(xùn)練的GAPN模型中,通過模型的處理,輸出最終的訪問節(jié)點(diǎn)序列。本發(fā)明基于深度強(qiáng)化學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)的方法提出了一種解決無人充電車路徑規(guī)劃的策略,提高了無線傳感網(wǎng)絡(luò)的工作效率,延長了網(wǎng)絡(luò)的生命周期。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域,具體涉及模型搭建與訓(xùn)練,通過實(shí)際問題的解決效果來反應(yīng)模型的優(yōu)劣,尤其涉及基于深度強(qiáng)化學(xué)習(xí)的無人充電車路徑規(guī)劃方法。
背景技術(shù)
在大多數(shù)無線傳感器網(wǎng)絡(luò)中,每個(gè)傳感器節(jié)點(diǎn)都是固定部署在一個(gè)位置,并且通過電池設(shè)備或者依靠環(huán)境能源,例如風(fēng)能、太陽能等進(jìn)行供給電量,但是這樣的能源供給存在不可控性和不穩(wěn)定性,無線傳感網(wǎng)工作效率以及穩(wěn)定性也受到了極大的影響,網(wǎng)絡(luò)的生命周期也大大降低。
為了解決傳統(tǒng)無線傳感器網(wǎng)絡(luò)的能量供給問題,利用移動設(shè)備對傳感器節(jié)點(diǎn)進(jìn)行補(bǔ)充電量的方案成為研究的熱點(diǎn)。這樣的充電方式實(shí)際上是基于移動性節(jié)點(diǎn)的思想提出的,引入移動性節(jié)點(diǎn)的可以提高網(wǎng)絡(luò)的靈活性,為傳感器網(wǎng)中的多種任務(wù),例如傳感器節(jié)點(diǎn)電量補(bǔ)充、數(shù)據(jù)收集、目標(biāo)跟蹤和節(jié)點(diǎn)定位等提供了新的思路,極大提高了傳感器網(wǎng)絡(luò)的容錯(cuò)率,延長了傳感器網(wǎng)絡(luò)的生命周期。為了讓充電車能夠合理選擇需要補(bǔ)充能量的傳感器節(jié)點(diǎn),平衡節(jié)點(diǎn)之間的能量損耗,更加有效地執(zhí)行充電任務(wù),避免網(wǎng)絡(luò)中出現(xiàn)因電量不足而出現(xiàn)的節(jié)點(diǎn)“死亡”現(xiàn)象,需要對充電車進(jìn)行有效調(diào)度以及合理的路徑規(guī)劃。
路徑規(guī)劃問題是經(jīng)典的組合優(yōu)化問題之一,近些年來,研究表明深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在解決組合優(yōu)化問題上有獨(dú)特的優(yōu)勢。基于深度強(qiáng)化學(xué)習(xí)的模型通常將問題轉(zhuǎn)化到高維空間中,在高維空間中尋找并學(xué)習(xí)變量之間存在的關(guān)系,并結(jié)合圖神經(jīng)網(wǎng)絡(luò)對于圖結(jié)構(gòu)的處理,獲取到問題的最優(yōu)解,這是傳統(tǒng)運(yùn)籌學(xué)方法所無法做到的。所以,如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的框架結(jié)構(gòu)和損失函數(shù),優(yōu)化模型的訓(xùn)練過程,是目前深度強(qiáng)化學(xué)習(xí)解決組合優(yōu)化問題的技術(shù)難點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于,在考慮節(jié)點(diǎn)位置、耗電速率、充電速率以及節(jié)點(diǎn)電量容量等限制條件情況下,為充電車設(shè)計(jì)合理的節(jié)點(diǎn)充電路徑規(guī)劃方案,避免無線傳感網(wǎng)絡(luò)中的節(jié)點(diǎn)出現(xiàn)電量不足而導(dǎo)致的“死亡現(xiàn)象”,并且盡可能減少無人車所消耗的路徑成本,從而延長無線傳感網(wǎng)絡(luò)的生命周期,提高網(wǎng)絡(luò)可用性。
本發(fā)明的技術(shù)方案是:
基于深度強(qiáng)化學(xué)習(xí)的無人充電車路徑規(guī)劃方法,包括如下步驟:
步驟(1)收集無線傳感網(wǎng)絡(luò)中的節(jié)點(diǎn)S={s0,s1,s2,…,sn}信息,包含節(jié)點(diǎn)的位置信息和緊急狀況;
步驟(2)搭建基于深度強(qiáng)化學(xué)習(xí)的模型GAPN,包含點(diǎn)編碼器、圖編碼器、解碼器以及注意力機(jī)制模塊;
步驟(3)以搜集到節(jié)點(diǎn)信息數(shù)據(jù)為基礎(chǔ),生成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集用于訓(xùn)練GAPN模型;
步驟(4)設(shè)定模型訓(xùn)練目標(biāo)為最小化節(jié)點(diǎn)死亡率以及最小化充電車路徑成本,定義損失函數(shù),使用強(qiáng)化學(xué)習(xí)actor-critic算法對GAPN進(jìn)行訓(xùn)練,得到最終的模型;
步驟(5)將無線傳感網(wǎng)絡(luò)中的節(jié)點(diǎn)S={s0,s1,s2,…,sn}信息輸入到GAPN模型中,模型返回充電車訪問所有節(jié)點(diǎn)的方案π={s0,s′1,s′2,…,s′n},其中π是對S的重新排序;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210302308.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運(yùn)輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





