[發(fā)明專利]低軌衛(wèi)星網(wǎng)絡中基于Q學習的切換判決方法在審
| 申請?zhí)枺?/td> | 202110267062.9 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN113038387A | 公開(公告)日: | 2021-06-25 |
| 發(fā)明(設計)人: | 李云;劉夢夢;吳廣富 | 申請(專利權(quán))人: | 重慶郵電大學 |
| 主分類號: | H04W4/029 | 分類號: | H04W4/029;H04W36/00;H04W36/22;H04W36/30 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 盧勝斌 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 衛(wèi)星網(wǎng)絡 基于 學習 切換 判決 方法 | ||
1.一種低軌衛(wèi)星網(wǎng)絡中基于Q學習的切換判決方法,其特征在于,所述方法包括以下步驟:
S1、采用高斯馬爾科夫模型和衛(wèi)星的星歷信息預測出用戶終端可能的切換路徑,并確定所述用戶終端所對應的候選衛(wèi)星;
S2、基于候選衛(wèi)星的接收信號強度、服務時間、信道利用率以及中繼開銷四個切換因子,制定出用戶終端關聯(lián)不同候選衛(wèi)星的收益函數(shù);
S3、計算出用戶終端在當前狀態(tài)下選擇不同決策動作所獲得的收益獎賞值;
S4、根據(jù)所述收益獎賞值,用戶終端采用Q學習算法計算出對應的Q值;
S5、用戶終端根據(jù)Q值表進行切換判決,使得用戶終端關聯(lián)到對應衛(wèi)星。
2.根據(jù)權(quán)利要求1所述的一種低軌衛(wèi)星網(wǎng)絡中基于Q學習的切換判決方法,其特征在于,確定所述用戶終端所對應的候選衛(wèi)星包括采用高斯馬爾科夫模型對用戶終端的運動速度和運動方向進行建模,預測出用戶終端的運動軌跡:確定出所述運動軌跡下有重疊覆蓋時間的衛(wèi)星;在衛(wèi)星的星歷信息約束下,得到處于用戶終端的通信時長內(nèi)可提供服務的候選衛(wèi)星。
3.根據(jù)權(quán)利要求2所述的一種低軌衛(wèi)星網(wǎng)絡中基于Q學習的切換判決方法,其特征在于,所述采用高斯馬爾科夫模型對用戶終端的運動速度和運動方向進行建模包括:
其中,vi、di分別表示i時刻用戶終端的運動速度和方向;vi-1、di-1分別表示i-1時刻用戶終端的運動速度和方向;k∈(0,1)是一個隨機性參數(shù),可對速度和方向進行調(diào)整;分別表示某段時間內(nèi)用戶終端速度和方向的平均值;{δi-1}、{γi-1}是兩個服從均值為零,方差為1的不相關高斯過程;用戶終端在i時刻的坐標為(xi,yi),在i-1時刻的坐標為(xi-1,yi-1),兩者之間的關系表示為:
4.根據(jù)權(quán)利要求1所述的一種低軌衛(wèi)星網(wǎng)絡中基于Q學習的切換判決方法,其特征在于,所述用戶終端關聯(lián)不同候選衛(wèi)星的收益決策表示為:
R(s,a)=w1N(ui)+w2N(ti)+w3N(si)+w4N(di)
其中,R(s,a)表示在狀態(tài)s下選擇決策動作a獲得的收益獎賞;N(ui)表示信道利用率的歸一化函數(shù),w1表示信道利用率的權(quán)重;N(ti)表示服務時間的歸一化函數(shù);w2表示服務時間的權(quán)重;N(si)表示接收信號強度值的歸一化函數(shù);w3表示接收信號強度值的權(quán)重;N(di)表示中繼開銷的歸一化函數(shù);w4表示中繼開銷的權(quán)重。
5.根據(jù)權(quán)利要求4所述的一種低軌衛(wèi)星網(wǎng)絡中基于Q學習的切換判決方法,其特征在于,各個權(quán)重通過層次分析法進行求解,具體包括對各個切換因子進行重要性分析,采用一致矩陣法構(gòu)建出判斷矩陣;計算出所述判斷矩陣的最大特征根對應的特征向量,將所述特征向量進行歸一化處理,將歸一化后的向量作為權(quán)重向量,即各個切換因子的權(quán)重值所對應的向量。
6.根據(jù)權(quán)利要求1所述的一種低軌衛(wèi)星網(wǎng)絡中基于Q學習的切換判決方法,其特征在于,所述Q學習算法計算出對應的Q值的計算公式表示為:
其中,Qt+1(s,a)表示t+1時刻用戶終端在當前狀態(tài)s下采用決策動作a獲得的Q值;α表示學習率;γ表示折扣率;Qt(s,a)表示t時刻用戶終端在當前狀態(tài)s下采用決策動作a獲得的Q值;R(s,a)表示在當前狀態(tài)s下選擇決策動作a后智能體獲得的即時獎勵值;表示智能體通過訓練累積的經(jīng)驗中獲知的最大收益。
7.根據(jù)權(quán)利要求1所述的一種低軌衛(wèi)星網(wǎng)絡中基于Q學習的切換判決方法,其特征在于,所述用戶終端根據(jù)Q值表進行切換判決包括判斷下一狀態(tài)是否為終止狀態(tài),若為終止狀態(tài),則輸出對應的用戶終端在當前狀態(tài)s下采用決策動作a的Q值,否則繼續(xù)更新用戶終端在不同狀態(tài)下的Q值,根據(jù)該Q值讓用戶終端關聯(lián)到對應衛(wèi)星。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學,未經(jīng)重慶郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110267062.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04W 無線通信網(wǎng)絡
H04W4-00 專門適用于無線通信網(wǎng)絡的業(yè)務或設施
H04W4-02 .利用用戶或終端位置的業(yè)務
H04W4-06 .廣播選擇分發(fā);到用戶組的業(yè)務;單向選呼業(yè)務
H04W4-12 .消息傳送,例如SMS[短消息業(yè)務];郵箱;通告,例如,通知用戶通信請求的狀態(tài)或進展
H04W4-16 .與通信相關的補充業(yè)務,例如,呼叫轉(zhuǎn)移或呼叫保持
H04W4-18 .信息格式或內(nèi)容轉(zhuǎn)換,例如,為了向用戶或終端無線傳送的目的,由網(wǎng)絡對發(fā)送或接收的信息進行適應修改
- 一種網(wǎng)絡拓撲結(jié)構(gòu)的組網(wǎng)方法及裝置
- 一種基于網(wǎng)絡編碼的雙層衛(wèi)星網(wǎng)絡多徑路由方法
- 一種衛(wèi)星通信的方法、裝置及系統(tǒng)
- 一種衛(wèi)星網(wǎng)絡與地面網(wǎng)絡混合使用方法
- 基于業(yè)務時延的多層多域衛(wèi)星網(wǎng)絡拓撲抽象方法
- 基于卷積神經(jīng)網(wǎng)絡的衛(wèi)星網(wǎng)絡協(xié)調(diào)態(tài)勢評估方法及系統(tǒng)
- 衛(wèi)星網(wǎng)絡的管理方法、裝置及電子設備
- 基于時間可達性圖的多層衛(wèi)星網(wǎng)絡建模與仿真分析方法
- 一種面向衛(wèi)星網(wǎng)絡的網(wǎng)絡功能服務鏈部署方法
- 衛(wèi)星網(wǎng)絡安全分析方法、裝置、系統(tǒng)和存儲介質(zhì)





