[發明專利]一種基于多智能體深度強化學習的協作充電規劃方法在審

申請號：	202211462417.0	申請日：	2022-11-21
公開（公告）號：	CN115907377A	公開（公告）日：	2023-04-04
發明（設計）人：	馮勇;王蜀蒙;李英娜;張晶;付曉東	申請（專利權）人：	昆明理工大學
主分類號：	G06Q10/0631	分類號：	G06Q10/0631;G06Q50/06;G06F18/241;G06N3/04;G06N3/084
代理公司：	昆明明潤知識產權代理事務所(普通合伙) 53215	代理人：	馬海紅
地址：	650093 云***	國省代碼：	云南;53
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于智能深度強化學習協作充電規劃方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于多智能體深度強化學習的協作充電規劃方法，其特征在于，包括如下步驟：

步驟1：構建一個多移動充電器MC無線可充電傳感器網絡WRSN的場景；

步驟2：以最大化能源利用率和最小化死亡節點數為目標，建立優化問題；

步驟3：構建基于多智能體深度強化學習的協同充電規劃算法；

步驟4：在基于多智能體深度強化學習的協同充電規劃算法的訓練過程中，使用WRSN歷史數據對算法進行線下訓練，獲得求解多MC協作調度問題的訓練好的深度強化學習模型；

步驟5：在基于多智能體深度強化學習的協同充電規劃算法的執行過程中，將WRSN狀態信息輸入到訓練好的深度強化學習模型中，通過模型計算得到MC的充電動作值。

2.根據權利要求1所述的基于多智能體深度強化學習的協作充電規劃方法，其特征在于，所述步驟1中，構建一個多移動充電器無線可充電傳感器網絡的模型的具體步驟包括：

WRSN部署在確定的二維監測區域內，包括：n個相同的傳感器節點；1個基站BS；1個服務站SS；m個相同的MC，WRSN從被部署開始到全部節點死亡的時間稱為生命周期，WRSN生命周期被劃分為若干個相同的時隙t，時隙t的持續時間較短且不可分割；

傳感器節點隨機分布于監測區域內，位置固定，{s_i}表示節點集合，其中i表示節點序號，1≤i≤n；表示s_i的二維坐標；Es表示節點的總能量；表示節點s_i在時隙t的剩余能量；p_i(t)表示節點在時隙t的瞬時能量消耗率，表示節點從網絡生命周期開始到當前時隙t的平均能量消耗率，初始時刻開始，全部節點都收集數據并通過多跳轉發的方式將數據傳輸到基站，由于傳感器節點周圍事件發生和傳感器節點突發數據流的不可預測性，傳感器節點的能量消耗率是動態變化的，每個時隙t傳感器的剩余能量更新一次，公式如下：

每個時隙t傳感器的平均能量消耗率更新一次，公式如下：

h_s表示節點的閾值，每個時隙t所有的節點將通過多跳轉發的方式向基站發送其狀態信息如下式：

當節點能量耗盡時，節點將進入休眠，無法為網絡提供任何服務；

MC是具有自主移動能力的設備，可以在WRSN的部署區域自由移動，MC可以獲取自身的實時定位，{m_j}表示MC構成的集合，其中j表示MC的序號，1≤j≤m；表示MC_j的二維坐標，MC的能量總容量為E_m，MC移動速度為v，移動能耗為q_m，充電功率表示為q_c，充電效率表示為η，MC分為空閑MC和占用MC，在每個時隙t空閑MC通過遠距離實時通信接收來自基站的充電目標節點，并前往進行一對一充電；而占用MC繼續完成其充電任務，MC一次充電任務耗時若干個時隙，將其定義為MC_j的一個時間步，表示為其中t表示時間步的序號，即的開始時隙t；j表示MC的id；時隙t時MC_j接收充電任務并開始執行，由于每個傳感器節點不均勻分散分布且充電所需的時間不同，多MC需執行異步充電，即不同MC的時間步含有不同個數的時隙且時間步開始和結束于不同時隙，MC可通過基站獲取發送了充電請求的節點最近一次更新的在t時隙的狀態信息在每個時隙t，全部MC向基站發送一條自身的狀態信息，表示為：

其中表示時隙tMC_j的位置，表示MC_j正在前往或正在充電的節點的位置,Δt表示在MC_j完成當前充電任務的預計剩余時間，若MC處于空閑狀態，則且Δt＝0；

服務站具有足夠能量為MC進行無線充電，h_m表示MC的閾值，在每完成一次充電任務后若MC_i的能量小于h_m，則MC需要返回服務站補充能量，在此期間不能進行充電任務；

基站維護低能量節點和全部MC的狀態信息在每個時隙t，能量低于h_s的節點依照先來先服務的原則被插入長度為|A|請求隊列，若時隙t的請求數大于|A|，則超出請求隊列長度的請求將被丟棄，請求隊列中節點不能重復，死亡節點將被從請求隊列中刪除，若請求隊列中的節點數小于|A|，則請求隊列的空位被零填充，請求隊列中的空值為非法動作，若請求隊列不為空并且有空閑MC，則基站通過MACC算法根據請求隊列中的合法動作依次為空閑MC選擇充電的目標節點，并將其發送給對應MC，被選為動作值的節點將被從請求隊列中刪除。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學，未經昆明理工大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211462417.0/1.html，轉載請聲明來源鉆瓜專利網。