[發明專利]一種深度確定性策略梯度的下行NOMA功率分配方法在審
| 申請號: | 202011344394.4 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112492691A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 王偉;殷爽爽;呂明海;武聰 | 申請(專利權)人: | 遼寧工程技術大學 |
| 主分類號: | H04W72/04 | 分類號: | H04W72/04;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 123000 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 確定性 策略 梯度 下行 noma 功率 分配 方法 | ||
1.一種深度確定性策略梯度的下行NOMA功率分配方法,其特征在于使用深度確定性策略梯度算法實現下行NOMA系統的功率分配,其包括如下:算法中共包含四個神經網絡,演員模塊和評論家模塊分別使用雙神經網絡結構;使用經驗池回放機制進行訓練,解決訓練樣本間存在的時間相關性問題;對算法中狀態、動作及獎賞函數分別進行對應設計,使智能體可以更加有效的自主學習;采用集中式的訓練方式,經過多次迭代,最終得到最優的功率分配策略;通過功率分配使NOMA系統中的多個用戶處于不同的、恰當的功率級別,在最大功率的限制下,最大程度提升系統的中傳輸速率,從而提升NOMA系統的總體通信性能和用戶的通信體驗。
2.根據權利要求1所述一種基于深度確定性策略梯度的下行NOMA功率分配方法,初始化下行NOMA系統環境,包含基站及多個終端用戶,考慮到接收端解碼的復雜度,考慮一個子信道上包含兩個用戶的情況,初始化狀態作為神經網絡的輸入。
3.根據權利要求1所述一種基于深度確定性策略梯度的下行NOMA功率分配方法,狀態包含四個部分,第一個部分是上一時隙智能體所達到的和速率,第二部分是上一時隙智能體上兩個用戶各自的SINR信息,第三部分是上一時隙智能體上兩個用戶各自所達到的傳輸速率,第四部分是當前時隙智能體所采取的功率分配比例因子,狀態表示為:
其中,表示上一時隙智能體所達到的和速率,表示上一時隙智能體上兩個用戶各自的SINR信息,表示上一時隙智能體上兩個用戶各自所達到的傳輸速率,表示當前時隙智能體所采取的功率分配比例因子。
4.根據權利要求1所述一種基于深度確定性策略梯度的下行NOMA功率分配方法,動作集合是一個連續值集合,取值范圍從0到1,但不包含0和1;集合表示為:
A=(0,...,βn,...,1)
其中,βn表示子信道上兩個用戶之間的功率分配比例因子。
5.根據權利要求1所述一種基于深度確定性策略梯度的下行NOMA功率分配方法,將初始狀態信息輸入當前演員神經網絡,輸出智能體所要采取的動作;在達到固定迭代次數及固定時隙時,從經驗池中隨機抽取批次數據輸入神經網絡進行訓練,計算當前演員網絡和當前評論家網絡的損失函數,通過梯度下降法更新兩個網絡的參數;目標演員網絡和目標評論家網絡是采取的“軟更新”的方式,來更新網絡權重參數,表示如下:
其中,τ表示參數更新幅度大小。
6.根據權利要求1所述一種基于深度確定性策略梯度的下行NOMA功率分配方法,獎賞函數的設計,是通過設置當前時隙所有智能體所能達到的傳輸速率總和,計算公式為:
7.根據權利要求1所述一種基于深度確定性策略梯度的下行NOMA功率分配方法,采用雙神經網絡結構及經驗回放機制,有效分析處理大量數據,并且避免訓練樣本之間存在的時間相關性,提升神經網絡的性能;所述一種基于深度確定性策略梯度的下行NOMA功率分配方法,對狀態集合、動作集合及獎賞函數根據仿真NOMA系統環境進行對應設計,進行神經網絡的訓練;所述一種基于深度確定性策略梯度的下行NOMA功率分配方法,對兩個目標神經網絡的參數更新采取“軟更新”的方式,每次更新一部分,而不是完全復制兩個當前神經網絡的參數;通過訓練神經網絡,最終得到最優的功率分配策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧工程技術大學,未經遼寧工程技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344394.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種體育用籃球自動清潔消毒裝置
- 下一篇:一種焊接工裝及船外板對接的焊接工藝





