[發(fā)明專利]面向微小蜂窩基站的自適應功率分配系統(tǒng)、方法和介質有效
| 申請?zhí)枺?/td> | 202011000978.X | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112118632B | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設計)人: | 王亞彤;馮鋼;秦爽 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | H04W72/04 | 分類號: | H04W72/04;H04W72/08 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 李朝虎 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 微小 蜂窩 基站 自適應 功率 分配 系統(tǒng) 方法 介質 | ||
1.面向微小蜂窩基站的自適應功率分配方法,其特征在于,包括如下步驟:
每個小基站收集其對應的服務用戶受到的干擾信息,小基站檢測到的干擾信息隨著無線信道和環(huán)境變化,對變化,所有小基站在每個時隙同時進行協(xié)調決策;
S1、搭建決策模型,在模型中,小基站作為實體自主地感知周圍干擾,并為其服務用戶分配發(fā)射功率,模型中包括虛擬agent,agent包括小基站和對應的用戶設備;
S2、小基站的協(xié)調決策對應agent的動作,連續(xù)動作向量構成動作空間,采用獎勵來評價動作,所有agent同時采取行動,獲得的所有即時獎勵構成獎勵空間;獎勵反饋用于優(yōu)化小基站的協(xié)調決策,同時獎勵反饋用于優(yōu)化agent的動作:
S3、在模型中搭建MARL框架來優(yōu)化策略,策略為獎勵對動作、協(xié)調決策的反饋過程;
自治網路包括一組為的SBS,SBS在相同的頻譜上工作,將系統(tǒng)帶寬B劃分為R個資源塊(RB),其中每個SBS擁有相同數(shù)量的RB,并且RB的帶寬由BRB表示,其中SBS具有最大發(fā)射功率并功率將分配給RB;
agent包括Agent j,Agent j∈[1,...,M],Agent j包括UE m和SBSn;
多個SBS在模型中的各個時隙做出ICIC決策,ICIC決策為基于POMDP的分布式干擾協(xié)調決策,并且每個agent根據自己的策略獨立地為UE分配每個RB上功率;
模型中將自治網絡中的干擾緩解問題表示為分布式部分觀測馬爾可夫決策過程DEC-POMDP,將DEC-POMDP擴展為多智能體層面,采用六元組表示,其中表示系統(tǒng)狀態(tài)空間;rj分別Agent j的狀態(tài)空間,行為空間,獎勵空間;和β分別代表狀態(tài)轉換概率和折扣因素;
連續(xù)系統(tǒng)狀態(tài)空間描述整個系統(tǒng)環(huán)境,所有agent的觀測空間的交集就是系統(tǒng)的狀態(tài)空間,其中,Agent j的觀測狀態(tài)取決于SINR,每個分配RB的干擾表示為向量:
其中和分別表示SINR和Agent j在第i個RB上收到的干擾;
Agent j的動作在t時刻表示為動作向量:
Agent j的動作空間為是連續(xù)的動作空間,表示獎勵空間用來評價動作,在時隙t時,所有agent同時采取行動,并且獲得即時獎勵
進行歸一化處理Agent j的獎勵函數(shù):
每個agent適應一個隨機策略其中是在oj狀態(tài)下執(zhí)行aj的概率,并用π來表示所有agent的聯(lián)合策略π=[π1,…,πM];
POMDP中的agent根據值函數(shù)來評估和更新策略,值函數(shù)為策略在的累計折扣獎勵的期望值,對于一個初始狀態(tài)Agent j在聯(lián)合策略下的值函數(shù)表示為
最后,計算Agent j在聯(lián)合策略下的值函數(shù);
所述計算Agent j在聯(lián)合策略下的值函數(shù)的過程為:
依據根據貝爾曼方程,改寫(7)為
式子(8)包括即時回報和后一狀態(tài)的價函數(shù),Agent j在聯(lián)合策略下的動作值函數(shù)為:
其中,M-agent的Q-function是所有agent采取聯(lián)合行動a=[a1,…,aM],值函數(shù)含有動作值函數(shù)的式子:
每個agent的目標在POMDP問題是找到一個的最優(yōu)策略最大化自己的值函數(shù),針對Agent j的POMDP問題的目標函數(shù)為:
目標函數(shù)用于最大化長期的累計折扣回報的期望;
搭建強化學習框架,在所述框架下,agent通過與環(huán)境交互來優(yōu)化策略,所述框架為AC框架,AC框架為基于演員-評論家(actor-critic,AC)的MARL框架;
在AC框架中,agent包括:參與者和批評者;
參與者負責參數(shù)化策略,根據觀察到的環(huán)境執(zhí)行操作,并根據批評者的反饋更新策略,評論家的角色是通過處理環(huán)境中的回報和近似價值函數(shù)來評價和批評現(xiàn)行策略;
所述評論家用于近似狀態(tài)值函數(shù)和動作值函數(shù),并評估一項策略的好壞,對于Agentj,采用函數(shù)逼近法,通過參數(shù)更新來估計值函數(shù),所述評論家還用于評估當前策略的質量;
所述演員是基于其當前策略執(zhí)行動作,并根據評論家的反饋更新策略,應用策略梯度法,演員根據critic的狀態(tài)值函數(shù)信息更新策略并計算學習速率,并收斂至最優(yōu)策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011000978.X/1.html,轉載請聲明來源鉆瓜專利網。





