[發(fā)明專利]空天地一體化網(wǎng)絡(luò)中時(shí)延最小化計(jì)算任務(wù)卸載方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202110720194.2 | 申請(qǐng)日: | 2021-06-28 |
| 公開(公告)號(hào): | CN113346944B | 公開(公告)日: | 2022-06-10 |
| 發(fā)明(設(shè)計(jì))人: | 王政;俞暉;朱世超;韋安琪 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | H04B7/185 | 分類號(hào): | H04B7/185;H04L41/083;H04L41/142;H04L41/14;G06N3/04 |
| 代理公司: | 上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 天地 一體化 網(wǎng)絡(luò) 中時(shí)延 最小化 計(jì)算 任務(wù) 卸載 方法 系統(tǒng) | ||
1.一種空天地一體化網(wǎng)絡(luò)中時(shí)延最小化計(jì)算任務(wù)卸載方法,其特征在于,包括:
步驟S1:建立支持計(jì)算任務(wù)卸載的空天地一體化網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu);
步驟S2:基于空天地一體化網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)構(gòu)建空天地一體化網(wǎng)絡(luò)模型;
步驟S3:基于構(gòu)建的空天地一體化網(wǎng)絡(luò)模型建立面向時(shí)延最小的優(yōu)化問(wèn)題;
步驟S4:將優(yōu)化問(wèn)題建模為馬爾科夫決策過(guò)程;
步驟S5:采用CL-MADDPG算法求解馬爾科夫決策過(guò)程,輸出卸載策略;
所述空天地一體化網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)包括多個(gè)動(dòng)態(tài)產(chǎn)生任務(wù)節(jié)點(diǎn)的地面節(jié)點(diǎn)以及為地面節(jié)點(diǎn)提供計(jì)算服務(wù)無(wú)人機(jī)和衛(wèi)星;
所述空天地一體化網(wǎng)絡(luò)模型包括:空天地一體化網(wǎng)絡(luò)系統(tǒng)模型、通信模型、任務(wù)模型以及執(zhí)行模型;
所述步驟S2中空天地一體化網(wǎng)絡(luò)模型包括:空天地一體化網(wǎng)絡(luò)系統(tǒng)模型、通信模型、任務(wù)模型以及執(zhí)行模型;
所述空天地一體化網(wǎng)絡(luò)系統(tǒng)模型包括:在空天地一體化網(wǎng)絡(luò)中,有N個(gè)地面節(jié)點(diǎn),表示為集合一架無(wú)人機(jī)U;一顆衛(wèi)星S;空天地一體化網(wǎng)絡(luò)系統(tǒng)是分時(shí)隙的,時(shí)隙總個(gè)數(shù)為T,時(shí)隙集合為一個(gè)時(shí)隙的長(zhǎng)度為τ;
所述通信模型包括:在時(shí)隙t時(shí),地面節(jié)點(diǎn)n和無(wú)人機(jī)之間的通信速率為在時(shí)隙t時(shí),地面節(jié)點(diǎn)和衛(wèi)星之間的通信速率為
所述任務(wù)模型包括:在時(shí)隙t時(shí),節(jié)點(diǎn)n產(chǎn)生的任務(wù)表示為其中,表示任務(wù)輸入數(shù)據(jù)大?。槐硎救蝿?wù)計(jì)算的復(fù)雜度;
所述執(zhí)行模型包括:對(duì)于任務(wù)節(jié)點(diǎn)n對(duì)任務(wù)執(zhí)行進(jìn)行決策;決策后,本地執(zhí)行的子任務(wù)為無(wú)人機(jī)執(zhí)行的子任務(wù)為衛(wèi)星執(zhí)行的子任務(wù)為其中,分別為任務(wù)在本地、無(wú)人機(jī)和衛(wèi)星執(zhí)行的比例;且中至少一個(gè)為0;表示在時(shí)隙t時(shí),節(jié)點(diǎn)n和無(wú)人機(jī)的連通關(guān)系,為1表示時(shí)隙t時(shí),節(jié)點(diǎn)n在無(wú)人機(jī)的通信范圍內(nèi),為0表示不在通信范圍內(nèi),的值由節(jié)點(diǎn)n和無(wú)人機(jī)之間的距離和無(wú)人機(jī)的通信半徑的大小關(guān)系得出;
約束條件包括:
當(dāng)任務(wù)在本地執(zhí)行時(shí),本地的任務(wù)采取串行處理的策略,子任務(wù)在本地處理時(shí)延為
當(dāng)任務(wù)卸載到無(wú)人機(jī)執(zhí)行時(shí),無(wú)人機(jī)上執(zhí)行子任務(wù)的處理時(shí)延為
當(dāng)任務(wù)卸載到衛(wèi)星執(zhí)行時(shí),衛(wèi)星上執(zhí)行子任務(wù)處理時(shí)延為
所述步驟S3包括:
根據(jù)任務(wù)的各子任務(wù)的處理時(shí)延,基于子任務(wù)之間并行處理關(guān)系,將任務(wù)的處理時(shí)延表示為:
在時(shí)隙t產(chǎn)生的任務(wù)的總處理時(shí)延表示為:
其中,表示在時(shí)隙t時(shí)產(chǎn)生任務(wù)的節(jié)點(diǎn)集合;
由于節(jié)點(diǎn)任務(wù)產(chǎn)生的動(dòng)態(tài)性,最小化在時(shí)隙集合的時(shí)間范圍內(nèi)產(chǎn)生的所有任務(wù)的處理時(shí)延,表示如下:
其中,γ表示所有任務(wù)的決策的集合;T表示時(shí)隙總個(gè)數(shù);
所述步驟S4中馬爾科夫決策過(guò)程包括:用三元組S,A,R表示馬爾科夫決策過(guò)程;其中,S表示狀態(tài)空間;A表示動(dòng)作空間;R表示獎(jiǎng)勵(lì)函數(shù);
所述狀態(tài)空間S包括:在時(shí)隙t時(shí)地面節(jié)點(diǎn)n的狀態(tài)表示:
其中,表示節(jié)點(diǎn)n完成本地緩存中的正在排隊(duì)任務(wù)所需要的時(shí)間;表示節(jié)點(diǎn)n附近的節(jié)點(diǎn)完成各自緩存中的排隊(duì)任務(wù)需要的平均時(shí)間;表示節(jié)點(diǎn)n和無(wú)人機(jī)的連通性;表示節(jié)點(diǎn)n與無(wú)人機(jī)間的路徑損耗;表示無(wú)人機(jī)當(dāng)前剩余的計(jì)算資源;表示無(wú)人機(jī)完成緩存中的排隊(duì)任務(wù)所需要的時(shí)間;
所述動(dòng)作空間A包括:在時(shí)隙t時(shí)地面節(jié)點(diǎn)n的動(dòng)作表示如下:
其中,表示節(jié)點(diǎn)決策將部分任務(wù)卸載到無(wú)人機(jī),表示節(jié)點(diǎn)決策將部分任務(wù)卸載到衛(wèi)星;表示任務(wù)卸載執(zhí)行的比例;表示在將部分任務(wù)卸載到無(wú)人機(jī)的情況下,預(yù)約的計(jì)算資源占無(wú)人機(jī)總的計(jì)算資源的比例;
所述獎(jiǎng)勵(lì)函數(shù)R包括:在時(shí)隙t時(shí)地面節(jié)點(diǎn)n的獎(jiǎng)勵(lì)表示如下:
其中,表示在時(shí)隙t時(shí)產(chǎn)生任務(wù)的節(jié)點(diǎn)的集合;表示集合中元素的個(gè)數(shù),等于在時(shí)隙t時(shí)所產(chǎn)生的任務(wù)的平均處理時(shí)延的負(fù)值;
所述步驟S5包括:
步驟S5.1:N0個(gè)智能體分別對(duì)應(yīng)N0個(gè)地面節(jié)點(diǎn),每個(gè)智能體包括Actor神經(jīng)網(wǎng)絡(luò)、Critic神經(jīng)網(wǎng)絡(luò)、Target Actor神經(jīng)網(wǎng)絡(luò)以及Target Critic神經(jīng)網(wǎng)絡(luò);
步驟S5.2:使用MADDPG算法對(duì)N0個(gè)智能體進(jìn)行訓(xùn)練直至收斂,得到訓(xùn)練后的智能體;
步驟S5.3:訓(xùn)練后的智能體通過(guò)復(fù)制父代網(wǎng)絡(luò)參數(shù)和組合父代網(wǎng)絡(luò)參數(shù)生成下一代智能體,重復(fù)執(zhí)行步驟S5.2至步驟S5.3,直至智能體數(shù)量達(dá)到預(yù)設(shè)值,并使用MADDPG算法對(duì)達(dá)到預(yù)設(shè)數(shù)量的智能體進(jìn)行訓(xùn)練直至收斂,輸出每個(gè)智能體的卸載策略;
所述Actor神經(jīng)網(wǎng)絡(luò)根據(jù)當(dāng)前的狀態(tài)輸出動(dòng)作;
所述Critic神經(jīng)網(wǎng)絡(luò)根據(jù)當(dāng)前的狀態(tài)和采取的動(dòng)作生成動(dòng)作價(jià)值,表示對(duì)動(dòng)作好壞的評(píng)價(jià);
所述Target Actor神經(jīng)網(wǎng)絡(luò)根據(jù)下一時(shí)刻狀態(tài)估計(jì)下一時(shí)刻動(dòng)作,用于估計(jì)下一時(shí)刻動(dòng)作;
所述Target Critic神經(jīng)網(wǎng)絡(luò)用于根據(jù)下一時(shí)刻狀態(tài)和下一時(shí)刻動(dòng)作計(jì)算下一時(shí)刻的動(dòng)作價(jià)值;
所述步驟S5.2包括:
第n個(gè)智能體的Actor網(wǎng)絡(luò)表示為μn(sn|θn),其中,sn表示智能體觀察到的狀態(tài);θn表示Actor網(wǎng)絡(luò)參數(shù);Critic網(wǎng)絡(luò)表示為Qn(sn,an|ωn),其中,an表示智能體觀察到狀態(tài)sn后執(zhí)行的動(dòng)作;ωn表示Critic網(wǎng)絡(luò)參數(shù);Target Actor網(wǎng)絡(luò)表示為μ′n(sn|θ′n),其中,θ′n表示Target Actor網(wǎng)絡(luò)的參數(shù);Target Critic網(wǎng)絡(luò)表示為Q′n(sn,an|ω′n),其中ω′n表示Target Critic網(wǎng)絡(luò)的參數(shù);
第n個(gè)智能體的累計(jì)期望獎(jiǎng)勵(lì)為:
其中,pμ表示狀態(tài)分布;γ∈[0,1]表示獎(jiǎng)勵(lì)的折扣因子;T表示時(shí)隙總個(gè)數(shù);E表示期望;sn表示智能體觀察到的狀態(tài);γt表示γ的t次方;表示在時(shí)隙t時(shí)地面節(jié)點(diǎn)n的獎(jiǎng)勵(lì);
J(θn)關(guān)于θn的梯度表示為:
其中,經(jīng)驗(yàn)回放緩沖區(qū)D包含元組(sn,an,rn,s′n),是對(duì)智能體過(guò)去轉(zhuǎn)移軌跡的采樣,s′n是智能體在狀態(tài)sn采取動(dòng)作an后轉(zhuǎn)移到的新狀態(tài),表示μn(sn|θn)關(guān)于θn的梯度,表示Qn(sn,an|ωn)關(guān)于an的梯度;
根據(jù)J(θn)關(guān)于θn的梯度使用梯度上升法更新Actor網(wǎng)絡(luò)參數(shù)θn,使得輸出的動(dòng)作輸入到Critic后,能夠獲得最大的Q值,Q值表示在狀態(tài)sn下,采取動(dòng)作an后,智能體能夠獲得的累計(jì)獎(jiǎng)勵(lì)的期望值;
對(duì)于Critic網(wǎng)絡(luò),使用梯度下降法最小化損失函數(shù),更新Critic網(wǎng)絡(luò)參數(shù)ωn,使得對(duì)于Q值的估計(jì)更為準(zhǔn)確:
其中,Ln表示第n個(gè)智能體的損失函數(shù),yn表示目標(biāo)Q值,由Target Actor網(wǎng)絡(luò)和TargetCritic網(wǎng)絡(luò)估計(jì)得出,表達(dá)式為:
每過(guò)預(yù)設(shè)時(shí)間目標(biāo)網(wǎng)絡(luò)按如下規(guī)則進(jìn)行更新:
θ′n←εθn+(1-ε)θ′n,ω′n←εωn+(1-ε)ω′n
其中,ε∈[0,1]是目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí)速率;
所述步驟S5.3包括:
步驟S5.3.1:訓(xùn)練后的智能體中Actor網(wǎng)絡(luò)的參數(shù)集合為將智能體的數(shù)量增加到min{2N0,N};
步驟S5.3.2:將增加后的智能體中Actor網(wǎng)絡(luò)參數(shù)集合表示為并對(duì)增加后的智能體中Actor網(wǎng)絡(luò)進(jìn)行初始化;
初始化的方式如下所述:當(dāng)當(dāng)N0+1≤n≤min{2N0,N},隨機(jī)選取父代和對(duì)于中的每一個(gè)參數(shù),隨機(jī)從兩個(gè)父代中的一個(gè)選取;
步驟S5.3.3:對(duì)增加后的智能體Critic網(wǎng)絡(luò)、Target Actor網(wǎng)絡(luò)以及Target Critic網(wǎng)絡(luò)分別進(jìn)行初始化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110720194.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





