[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)節(jié)能巡航通信覆蓋方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210285830.8 | 申請(qǐng)日: | 2022-03-23 |
| 公開(kāi)(公告)號(hào): | CN114679699A | 公開(kāi)(公告)日: | 2022-06-28 |
| 發(fā)明(設(shè)計(jì))人: | 熊炫睿;賈鈺梅;張帆;黃楊;席娟 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | H04W4/40 | 分類號(hào): | H04W4/40;H04W4/90;H04W16/18;H04B7/185 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 400065*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 無(wú)人機(jī) 節(jié)能 巡航 通信 覆蓋 方法 | ||
1.基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)節(jié)能巡航通信覆蓋方法,其特征在于,包括以下步驟:
S1、針對(duì)災(zāi)難發(fā)生后用戶分布不均的特點(diǎn),建立無(wú)人機(jī)基站與地面用戶之間的通信,在滿足通信條件下將用戶分布復(fù)雜的目標(biāo)區(qū)域進(jìn)行柵格化;
S2、確定目標(biāo)區(qū)域中的重點(diǎn)單元格與普通單元格,分別設(shè)置重點(diǎn)單元格與普通單元格所對(duì)應(yīng)的權(quán)值;
S3、設(shè)置訓(xùn)練過(guò)程中所需要的相關(guān)參數(shù)和評(píng)估指標(biāo),采用深度強(qiáng)化學(xué)習(xí)算法對(duì)多個(gè)無(wú)人機(jī)進(jìn)行集中式訓(xùn)練、分布式執(zhí)行;
S4、計(jì)算在整個(gè)系統(tǒng)中目標(biāo)區(qū)域的平均覆蓋指數(shù)、目標(biāo)區(qū)域的公平覆蓋指數(shù)以及多無(wú)人機(jī)巡航覆蓋目標(biāo)區(qū)域的能量效率。
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)節(jié)能巡航通信覆蓋方法,其特征在于,針對(duì)災(zāi)難發(fā)生后地面用戶存在分布不均的特點(diǎn),為保證災(zāi)區(qū)快速恢復(fù)通信,同時(shí)節(jié)約無(wú)人機(jī)的能耗,采用多無(wú)人機(jī)以巡航覆蓋的方式輔助災(zāi)區(qū)通信。而災(zāi)難發(fā)生后多無(wú)人機(jī)以巡航覆蓋的方式輔助災(zāi)區(qū)恢復(fù)通信是NP問(wèn)題,因此對(duì)災(zāi)后目標(biāo)區(qū)域進(jìn)行柵格劃分,將目標(biāo)區(qū)域劃分為K個(gè)單元格,取每個(gè)單元格的中心點(diǎn)作為無(wú)人機(jī)需要覆蓋的任務(wù)目標(biāo)點(diǎn);無(wú)人機(jī)需要巡航覆蓋所有任務(wù)目標(biāo)點(diǎn)才可實(shí)現(xiàn)對(duì)災(zāi)后目標(biāo)區(qū)域的全覆蓋并實(shí)現(xiàn)恢復(fù)通信。
3.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)節(jié)能巡航通信覆蓋方法,其特征在于,由于災(zāi)后用戶分布不均,對(duì)于存在避難所等用戶聚集地所需要的通信要求較高,而對(duì)于用戶較少的稀疏區(qū)域所需要的通信要求較低。因此將存在避難所的重點(diǎn)單元格表示為u,u∈U,其權(quán)重設(shè)置為特殊權(quán)值wu,而對(duì)于用戶稀疏區(qū)域的普通單元格表示為v,v∈V,權(quán)重設(shè)置為wv,則目標(biāo)區(qū)域所劃分的總單元格數(shù)目為K=U+V,且k=u,v;當(dāng)無(wú)人機(jī)覆蓋到重點(diǎn)單元格時(shí),無(wú)人機(jī)以懸停-通信的協(xié)議對(duì)重點(diǎn)單元格覆蓋一段時(shí)間而對(duì)于普通單元格,則以飛行-通信協(xié)議輔助通信。
4.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)節(jié)能巡航通信覆蓋方法,其特征在于,采用平均覆蓋指數(shù)、公平覆蓋指數(shù)和無(wú)人機(jī)能量效率來(lái)判斷目標(biāo)區(qū)域中的單元格被覆蓋的情況。
5.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)節(jié)能巡航通信覆蓋方法,其特征在于,我們將多無(wú)人機(jī)覆蓋目標(biāo)區(qū)域任務(wù)建模為一個(gè)隨機(jī)博弈,以便采用深度強(qiáng)化學(xué)習(xí)技術(shù)對(duì)其求解。該任務(wù)中采用深度強(qiáng)化學(xué)習(xí)方法對(duì)多個(gè)無(wú)人機(jī)進(jìn)行集中式訓(xùn)練、分布式執(zhí)行以實(shí)現(xiàn)目標(biāo),其中深度強(qiáng)化學(xué)習(xí)方法主要是基于MADDPG算法。每個(gè)無(wú)人機(jī)均由Actor-Critic框架訓(xùn)練,Actor網(wǎng)絡(luò)獲取無(wú)人機(jī)狀態(tài)S,進(jìn)行動(dòng)作選擇(空間探索);Critic網(wǎng)絡(luò)根據(jù)動(dòng)作a和狀態(tài)S進(jìn)行評(píng)價(jià),采用策略梯度更新Actor和Critic兩個(gè)網(wǎng)絡(luò)的權(quán)重。算法主要使用DNN作為函數(shù)逼近器,通過(guò)最小化損失函數(shù)更新Actor網(wǎng)絡(luò),則損失函數(shù)L的表達(dá)式為:
其中,表示Critic網(wǎng)絡(luò)參數(shù),j,j→∞表示迭代次數(shù),表示由Target Critic網(wǎng)絡(luò)生成的目標(biāo)值,sj表示無(wú)人機(jī)的狀態(tài),表示無(wú)人機(jī)的行為,則目標(biāo)值的表達(dá)式為:
其中,表示無(wú)人機(jī)獲取的獎(jiǎng)勵(lì)值;每個(gè)無(wú)人機(jī)的Actor網(wǎng)絡(luò)的權(quán)重參數(shù)由策略梯度進(jìn)行更新,則梯度更新的表達(dá)式為:
兩個(gè)目標(biāo)網(wǎng)絡(luò)的權(quán)重均由對(duì)應(yīng)的Actor和Critic網(wǎng)絡(luò)以θi′←τθi+(1-τ)θi′的形式緩慢更新所得。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210285830.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04W 無(wú)線通信網(wǎng)絡(luò)
H04W4-00 專門適用于無(wú)線通信網(wǎng)絡(luò)的業(yè)務(wù)或設(shè)施
H04W4-02 .利用用戶或終端位置的業(yè)務(wù)
H04W4-06 .廣播選擇分發(fā);到用戶組的業(yè)務(wù);單向選呼業(yè)務(wù)
H04W4-12 .消息傳送,例如SMS[短消息業(yè)務(wù)];郵箱;通告,例如,通知用戶通信請(qǐng)求的狀態(tài)或進(jìn)展
H04W4-16 .與通信相關(guān)的補(bǔ)充業(yè)務(wù),例如,呼叫轉(zhuǎn)移或呼叫保持
H04W4-18 .信息格式或內(nèi)容轉(zhuǎn)換,例如,為了向用戶或終端無(wú)線傳送的目的,由網(wǎng)絡(luò)對(duì)發(fā)送或接收的信息進(jìn)行適應(yīng)修改
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





