[發明專利]一種深度確定性策略梯度的下行NOMA功率分配方法在審
| 申請號: | 202011344394.4 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112492691A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 王偉;殷爽爽;呂明海;武聰 | 申請(專利權)人: | 遼寧工程技術大學 |
| 主分類號: | H04W72/04 | 分類號: | H04W72/04;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 123000 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 確定性 策略 梯度 下行 noma 功率 分配 方法 | ||
本發明公開了一種深度確定性策略梯度算法的下行NOMA系統中功率分配方法,方法采用雙神經網絡結構及經驗池回放機制,可以有效處理涉及大規模狀態?動作空間的問題,且降低訓練樣本之間的相關性,同時,采取確定性策略來選擇動作,可以在連續的動作空間中選擇動作。算法使用狀態信息作為神經網絡的輸入,并對狀態空間、動作空間及獎賞函數根據仿真下行NOMA系統情境進行了相應的設計,其中將上一時刻的信干噪比信息及速率信息作為當前時刻狀態信息的組成部分,可以使得智能體更加有效的學習并利用所學習到信息來改進行為策略,經過多次迭代后,得到最優的功率分配策略。該方法可以有效解決下行NOMA系統中多用戶的功率分配問題,且在不同的用戶數量及基站的發射功率級別下均具備良好的泛化性能,可以有效提升功率分配的合理性,同時運算耗時少,有效提高功率分配的效率。
技術領域
本發明涉及NOMA資源分配領域,特別是涉及一種深度確定性策略梯度算法的下行NOMA系統中功率分配方法。
背景技術
隨著無線通信系統中移動終端設備的不斷接入及用戶密度的不斷提高,通信系統中的數據量呈現指數型增長,正交多址接入技術已無法滿足高系統容量的需求,為進一步滿足用戶的業務需求,第五代移動通信系統應運而生,5G技術的主要關注點是數據速率的提高和端到端延遲的減少,以適應無線業務數據量的指數型增長,非正交多址訪問(NOMA)被認為是5G通信系統中有前途的技術,其允許多個用戶在同一子信道上進行通信,即功率復用,從而提高頻譜效率,解決頻譜稀缺性問題,在NOMA系統中,如何進行多用戶功率的分配與提高系統容量和頻譜效率等問題有息息相關,因此,尋找到一種有效的功率分配方案是很有必要的。
目前關于NOMA系統中功率分配的問題已經有了一系列研究,已有的研究方法可以分為基于數值模擬方法、深度學習算法及強化學習算法;其中,基于數值模擬的方法屬于傳統的求解算法,大多是采用相關優化技術來求解,具有較好的性能;隨著電腦硬件,如GRU,人工神經網絡等相關技術的更新發展,深度學習技術已具備對大量數據的分析處理能力,已在功率分配領域得到了應用,效果有所提升;基于強化學習的方法是采取“試錯”的思想,智能體不斷與環境進行交互,學習知識同時更新自身的行為策略,最終獲得最優的功率分配策略,深度強化學習引入深度學習技術,兼具分析感知與決策能力,對于復雜的系統具有良好的決策能力,已在功率分配領域得到有效應用。
功率分配問題大多是NP困難的(NP-hard),且具有非凸性,求最優解不是很容易,因此,有很多的研究方法是采用顯式的,或者隱式的優化技術,通過迭代計算求得最優解,傳統的方法可以有效提高系統性能,但數值模擬的方式沒有精確的系統模型,多次迭代計算需要涉及大量的運算,且會消耗大量的時間,無法滿足通信系統中對于數據的實時處理要求,而且基于傳統的方法不具備自主學習能力,無法適應多變的復雜的通信系統,因此對于實際通信場景的處理不完善。
繼傳統的優化算法后,有學者提出了使用深度學習技術來解決NOMA系統中的功率分配問題,此類方法采用深度神經網絡或其他的變體形式,采用的是監督學習的方式,通過多層神經網絡來進行數據特征的提取,學習數據到標簽的映射,相對于傳統功率分配方法的多次迭代計算,神經網絡的運算更為高效,復雜度較低,不過神經網絡的訓練需要大量的準備好的樣本數據,而通信系統中很難獲得完美的樣本數據,且監督學習的方式需要基準算法來進行訓練,其性能會受到基準算法的限制。
相較于深度學習中的監督學習方式,強化學習采取的一種自主學習的策略,智能體不斷的學習觀測到的環境信息,并不斷更新自身的行為選擇策略,最終學習到最優的到一個最優的行為控制策略,Q學習算法是最經典的強化學習算法,不過傳統的Q學習算法存在“維度災難”災難,即無法處理高維度的狀態-動作空間問題,且只能處理離散的動作空間,對于連續的動作空間無能為力,深度強化學習通過使用深度神經網絡代替傳統Q值函數,有效的解決了維度災難問題,使用最為廣泛的為深度Q網絡(DQN)算法,但其也存在無法解決連續型動作空間等問題,存在一定的局限性。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧工程技術大學,未經遼寧工程技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344394.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種體育用籃球自動清潔消毒裝置
- 下一篇:一種焊接工裝及船外板對接的焊接工藝





