[發明專利]一種基于多智能體深度強化學習的協作充電規劃方法在審
| 申請號: | 202211462417.0 | 申請日: | 2022-11-21 |
| 公開(公告)號: | CN115907377A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 馮勇;王蜀蒙;李英娜;張晶;付曉東 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06Q10/0631 | 分類號: | G06Q10/0631;G06Q50/06;G06F18/241;G06N3/04;G06N3/084 |
| 代理公司: | 昆明明潤知識產權代理事務所(普通合伙) 53215 | 代理人: | 馬海紅 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 深度 強化 學習 協作 充電 規劃 方法 | ||
1.一種基于多智能體深度強化學習的協作充電規劃方法,其特征在于,包括如下步驟:
步驟1:構建一個多移動充電器MC無線可充電傳感器網絡WRSN的場景;
步驟2:以最大化能源利用率和最小化死亡節點數為目標,建立優化問題;
步驟3:構建基于多智能體深度強化學習的協同充電規劃算法;
步驟4:在基于多智能體深度強化學習的協同充電規劃算法的訓練過程中,使用WRSN歷史數據對算法進行線下訓練,獲得求解多MC協作調度問題的訓練好的深度強化學習模型;
步驟5:在基于多智能體深度強化學習的協同充電規劃算法的執行過程中,將WRSN狀態信息輸入到訓練好的深度強化學習模型中,通過模型計算得到MC的充電動作值。
2.根據權利要求1所述的基于多智能體深度強化學習的協作充電規劃方法,其特征在于,所述步驟1中,構建一個多移動充電器無線可充電傳感器網絡的模型的具體步驟包括:
WRSN部署在確定的二維監測區域內,包括:n個相同的傳感器節點;1個基站BS;1個服務站SS;m個相同的MC,WRSN從被部署開始到全部節點死亡的時間稱為生命周期,WRSN生命周期被劃分為若干個相同的時隙t,時隙t的持續時間較短且不可分割;
傳感器節點隨機分布于監測區域內,位置固定,{si}表示節點集合,其中i表示節點序號,1≤i≤n;表示si的二維坐標;Es表示節點的總能量;表示節點si在時隙t的剩余能量;pi(t)表示節點在時隙t的瞬時能量消耗率,表示節點從網絡生命周期開始到當前時隙t的平均能量消耗率,初始時刻開始,全部節點都收集數據并通過多跳轉發的方式將數據傳輸到基站,由于傳感器節點周圍事件發生和傳感器節點突發數據流的不可預測性,傳感器節點的能量消耗率是動態變化的,每個時隙t傳感器的剩余能量更新一次,公式如下:
每個時隙t傳感器的平均能量消耗率更新一次,公式如下:
hs表示節點的閾值,每個時隙t所有的節點將通過多跳轉發的方式向基站發送其狀態信息如下式:
當節點能量耗盡時,節點將進入休眠,無法為網絡提供任何服務;
MC是具有自主移動能力的設備,可以在WRSN的部署區域自由移動,MC可以獲取自身的實時定位,{mj}表示MC構成的集合,其中j表示MC的序號,1≤j≤m;表示MCj的二維坐標,MC的能量總容量為Em,MC移動速度為v,移動能耗為qm,充電功率表示為qc,充電效率表示為η,MC分為空閑MC和占用MC,在每個時隙t空閑MC通過遠距離實時通信接收來自基站的充電目標節點,并前往進行一對一充電;而占用MC繼續完成其充電任務,MC一次充電任務耗時若干個時隙,將其定義為MCj的一個時間步,表示為其中t表示時間步的序號,即的開始時隙t;j表示MC的id;時隙t時MCj接收充電任務并開始執行,由于每個傳感器節點不均勻分散分布且充電所需的時間不同,多MC需執行異步充電,即不同MC的時間步含有不同個數的時隙且時間步開始和結束于不同時隙,MC可通過基站獲取發送了充電請求的節點最近一次更新的在t時隙的狀態信息在每個時隙t,全部MC向基站發送一條自身的狀態信息,表示為:
其中表示時隙tMCj的位置,表示MCj正在前往或正在充電的節點的位置,Δt表示在MCj完成當前充電任務的預計剩余時間,若MC處于空閑狀態,則且Δt=0;
服務站具有足夠能量為MC進行無線充電,hm表示MC的閾值,在每完成一次充電任務后若MCi的能量小于hm,則MC需要返回服務站補充能量,在此期間不能進行充電任務;
基站維護低能量節點和全部MC的狀態信息在每個時隙t,能量低于hs的節點依照先來先服務的原則被插入長度為|A|請求隊列,若時隙t的請求數大于|A|,則超出請求隊列長度的請求將被丟棄,請求隊列中節點不能重復,死亡節點將被從請求隊列中刪除,若請求隊列中的節點數小于|A|,則請求隊列的空位被零填充,請求隊列中的空值為非法動作,若請求隊列不為空并且有空閑MC,則基站通過MACC算法根據請求隊列中的合法動作依次為空閑MC選擇充電的目標節點,并將其發送給對應MC,被選為動作值的節點將被從請求隊列中刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211462417.0/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





