[發明專利]一種基于深度強化學習的智能反射面調控方法及裝置有效
| 申請號: | 202011135884.3 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112019249B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 龔世民;陳希雨;林嘉燁;譚源正 | 申請(專利權)人: | 中山大學 |
| 主分類號: | H04B7/06 | 分類號: | H04B7/06;G06N20/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 郭帥 |
| 地址: | 510000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 智能 反射 調控 方法 裝置 | ||
本發明提供了一種基于深度強化學習的智能反射面調控方法及裝置,其中方法包括:策略網絡根據第一狀態生成第一動作;將幅值固定并輸入優化模塊,更新第一動作得到第二動作,同時得到第一目標值;將第二動作作用于無線環境得到第二狀態,得到一個新樣本并存入經驗池;策略網絡和價值網絡根據樣本進行深度確定性策略梯度訓練,執行者利用深度確定性策略梯度方法更新其參數;根據第一目標值和目標Q網絡產生的第二目標值確定第三目標值,根據第三目標值訓練在線Q網絡的DNN并更新其參數;重復執行上述步驟直至得到最小化AP發射功率的網絡參數并輸出。本發明能在更短的時間內實現穩定且高效地學習,可以更快地收斂到最優目標。
技術領域
本發明涉及無線通信網絡技術領域,尤其是涉及一種基于深度強化學習的智能反射面的調控方法及裝置。
背景技術
目前,IRS被認為是一種非常具有潛力和發展前景的技術,IRS由大量無源反射元件組成,這些元件相互連接并由嵌入式IRS控制器進行控制它可以用于提高無線通信的能量和頻譜效率。通過對所有反射元件的復反射系數進行聯合控制,即被動波束成形,增強接收器的信號強度。IRS的被動波束成形技術以及收發器的傳輸控制技術可以進一步提高網絡性能。IRS已應用于各種場景中,其在無線通信中扮演著不同的角色,例如環境反射器,信號發送器甚至接收器。IRS的使用旨在提高信噪比(SNR)或頻譜效率,改善功耗或能量效率以及增強安全性。IRS還可用于增強無線功率傳輸、移動邊緣計算和車輛通信等。
現有技術通常基于交替優化(AO)框架,并保證收斂至次優解決方案。在AO框架的每次迭代中,通常需要使用半定松弛(SDR)或凸近似來優化主動或被動波束成形。作為一種啟發式方法,我們無法準確知道AO方法的性能損失,并且難以準確地進行表征。此外,優化方法還存在一些實際困難。隨著IRS散射元素的尺寸變大,AO方法的計算復雜度可能會顯著增加,這使得相關技術在動態環境中難以實施。同時,基于機器學習的技術雖也有應用,盡管DRL方法可以從頭開始學習最佳策略,但通常收斂速度慢。
發明內容
本發明的目的是提供一種基于深度強化學習的智能反射面的調控方法及裝置,以解決傳統的深度強化學習方法學習效率較低、穩定性較差的技術問題。
本發明的目的,可以通過如下技術方案實現:
一種基于深度強化學習的智能反射面調控方法,包括:
S1:策略網絡根據無線環境的狀態即第一狀態生成第一動作;其中,所述第一動作包括發射端的波束成形策略、反射元的反射相位及反射元的幅值;
S2:將所述幅值固定并輸入基于模型的優化模塊,更新所述第一動作得到第二動作,同時得到第一目標值;其中,所述第一目標值為優化模塊確定的優化問題目標值的下界;
S3:將所述第二動作作用于無線環境得到第二狀態,得到一個新的樣本并存入經驗池;其中,所述樣本由所述第一狀態、所述第二動作、第二動作的即時獎勵及所述第二狀態組成;
S4:策略網絡根據所述經驗池的樣本進行深度確定性策略梯度訓練,當前執行者利用深度確定性策略梯度方法更新其參數;
S5:價值網絡根據所述經驗池的樣本進行深度確定性策略梯度訓練,根據所述第一目標值和第二目標值確定第三目標值,根據所述第三目標值訓練在線Q網絡的DNN并更新其參數;其中,第二目標值為目標Q網絡產生的優化問題目標值;
S6:重復執行S1-S5直至發射端發射功率的變化幅度小于預設的閾值,得到滿足用戶特定信噪比約束的前提下,最小化AP發射功率的網絡參數,輸出當前狀態的波束成形策略、反射元的反射相位及反射元的幅值。
可選地,還包括:發射端通過下行控制信道將波束成形策略、反射元的反射相位及反射元的幅值發送至網絡設備。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011135884.3/2.html,轉載請聲明來源鉆瓜專利網。





