[發明專利]環境不確定遙感衛星網絡下的智能資源聯合調度方法有效
| 申請號: | 202011251365.3 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112422171B | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 周笛;王怡昕;盛敏;李建東;吳家鑫;戴諾伊;王晨光;白衛崗 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | H04B7/185 | 分類號: | H04B7/185;H04L12/24;H04W24/02;H04W24/06;H04W28/16;H04W72/04 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 程曉霞;王品華 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 環境 不確定 遙感 衛星網絡 智能 資源 聯合 調度 方法 | ||
1.一種環境不確定遙感衛星網絡下的智能資源聯合調度方法,其特征在于,建立的網絡模型適用于遙感衛星網絡所處環境和其資源調度場景,通過強化學習避免了直接求解高復雜度的規劃問題和狀態空間連續、無限的難題,包括有如下步驟:
(1)建立環境不確定的遙感衛星網絡模型:首先確定遙感衛星網絡規模及參數,包括遙感衛星和地面站的個數及位置,接著定義遙感衛星網絡狀態集S、動作集A、獎勵R、動作價值函數所述狀態集S={B×D×H×EH},在第i時隙開始時刻,遙感衛星網絡的狀態Si包括電池現有電量Bi,數據緩沖區現有數據量Di,信道參數Hi和吸收太陽能量四部分;根據ITU-R P.618-13、ITU-R P.838和ITU-R P.839建議書的標準,建立星地、星間鏈路的動態信道模型,仿真獲得信道參數Hi;考慮衛星運轉的軌道特性,建立動態能量收集模型,仿真獲得吸收太陽能量所述動作集A={Ar×At}包括接收功率{Ar}和發送功率{At}兩部分,可分別表示為和其中,δ表示步長,0表示不接收或不發送數據,PMAX表示功率最大值,當傳輸鏈路為星地鏈路時,否則,所述獎勵R以衛星在時隙初始時刻發送的數據量表示;所述動作價值函數的含義是智能體以策略π為指導,在狀態Si下,執行動作Pi后,獲得回報的期望;完成環境不確定的遙感衛星網絡模型的建立;
(2)產生環境參數的數據:通過STK軟件仿真遙感衛星網絡模型導出一個拓撲周期內環境參數的原始數據,并通過MATLAB軟件處理以上原始數據,獲得鏈路通斷、鏈路連接時長、遙感衛星的位置以及每時隙位于陽面時長,上述數據作為智能資源聯合調度方法的環境參數數據;
(3)初始化智能資源聯合調度方法所需參數:智能資源聯合調度方法所需參數包括有,一周期的時隙數T,星載電池容量Bmax,電池容量門限Bmin,數據存儲器容量Dmax,靜態功耗Pcons,單位時隙長度τ,探索率ε,Critic網絡參數ωcritic,Actor網絡參數ωactor,學習率α,Critic網絡參數的更新間隔Tcopy,Actor網絡參數的更新間隔Ttrain,訓練總時隙數I,當前時隙數i,折扣因子γ;
(4)指導衛星進行功率分配:觀察狀態Si,基于每一可行動作,通過定義反映遙感衛星工作特性及環境影響的六維特征函數,提取狀態、動作對的特征向量fi(Si,Pi),結合Actor網絡參數ωactor,使用ε-greedy策略在可行動作集中選擇一動作Pi作為當前時隙的功率分配方案,指導衛星進行功率分配;
(5)遙感衛星網絡狀態預轉移:計算環境不確定的遙感衛星網絡模型中的獎勵Ri,判斷是否完成迭代:i=I,若是,則轉至步驟(10),否則,進行下一步,執行新一輪迭代;
(6)指導衛星進行功率預分配:觀察預狀態S′i,基于每一可行動作,通過定義反映遙感衛星工作特性及環境影響的六維特征函數,提取狀態、動作對的特征向量f′i(S′i,Pi′),結合Actor網絡參數ωactor,使用ε-greedy策略在可行動作集中選擇一動作Pi′作為下一時隙預選的功率分配方案,并把樣本(fi,Pi,Ri,fi′,Pi′)放入經驗存儲器,用于后續網絡參數更新;
(7)Critic網絡參數ωcritic更新判斷:對當前時隙數i和Critic網絡參數的更新間隔Tcopy進行取余運算,判斷取余運算結果是否滿足i%Tcopy=0,若是,則按照ωcritic=ωactor的規則來更新Critic網絡參數ωcritic,進行下一步,否則,直接進行下一步;
(8)Actor網絡參數ωactor更新判斷:對當前時隙數i和Actor網絡參數的更新間隔Ttrain進行取余運算,判斷取余運算結果是否滿足i%Ttrain=0,若是,則根據梯度下降策略來更新Actor網絡參數ωactor,進行下一步,否則,直接進行下一步;
(9)更新遙感衛星網絡的狀態、動作和當前時隙數:Si+1=S′i,Pi+1=Pi′,i=i+1,完成一次迭代,接著轉至步驟(5);
(10)得到指導聯合調度的網絡參數ωcritic:輸出通過環境不確定遙感衛星網絡下的智能資源聯合調度方法訓練得到的網絡參數ωcritic,環境不確定遙感衛星網絡下的智能資源聯合調度方法結束;在實際應用中,基于此參數,根據greedy策略,即ε=0下的ε-greedy策略,產生資源聯合調度方案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011251365.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鉆孔分層充填方法
- 下一篇:一種五金加工用板材切割裝置





