[發明專利]基于深度強化學習的多用戶子載波功率分配方法有效
| 申請號: | 202010579195.5 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111885720B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 古博;林梓淇;張旭;丁北辰;韓瑜 | 申請(專利權)人: | 中山大學 |
| 主分類號: | H04W72/04 | 分類號: | H04W72/04;H04W72/08;H04W16/14;G06N3/04;G06N3/08 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 聶榕 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 多用戶 載波 功率 分配 方法 | ||
1.一種基于深度強化學習的多用戶子載波功率分配方法,其特征在于,所述方法包括:
獲取當前環境狀態,當前環境狀態包括:發射機本地狀態,基站狀態,干擾鄰居狀態以及被干擾鄰居狀態;
基于用來進行動作選擇的第一神經網絡對所述當前環境狀態進行處理,獲得當前功率分配方案,所述第一神經網絡包括動作選擇參數;所述當前功率分配方案包括:各可用子載波,以及各可用子載波對應的發射功率等級;
還包括步驟:
獲取神經網絡訓練端發送的最優動作值評估參數,并采用所述最優動作值評估參數更新所述第一神經網絡中的所述動作選擇參數;其中,所述神經網絡訓練端獲取預定數量的經驗回放樣本,所述經驗回放樣本包括對應的當前環境狀態,所述當前環境狀態包括:發射機本地狀態,基站狀態,干擾鄰居狀態以及被干擾鄰居狀態;并采用所述經驗回放樣本對用來評估動作的第二神經網絡進行訓練,獲得訓練后的第二神經網絡,所述訓練后的第二神經網絡中包括最優動作值評估參數,所述第二神經網絡與所述第一神經網絡的結構相同。
2.根據權利要求1所述的方法,其特征在于,包括:
所述發射機本地狀態包括:發射機前一時刻在各子載波上的先前傳輸功率,發射機前一時刻在各子載波上的先前頻譜效益,發射機的直接增益,所述發射機對應的接收機收到的總干擾。
3.根據權利要求1所述的方法,其特征在于,包括:
所述基站狀態包括:在當前時刻觀測到的在至少兩個歷史回退時刻,所述發射機向對應的接收機傳輸時,對基站造成的干擾狀態。
4.根據權利要求1所述的方法,其特征在于,包括:
狀態包括:所述發射機對應的接收機接收到的來自鄰居用戶的當前干擾鄰居狀態,以及干擾鄰居對應的頻譜效益;以及至少一個歷史回退時刻,所述發射機對應的接收機接收到的來自鄰居用戶的先前干擾鄰居狀態,以及干擾鄰居的頻譜效益。
5.根據權利要求1所述的方法,其特征在于,包括:
所述被干擾鄰居狀態包括:在當前時刻觀測到的在至少兩個歷史回退時刻,發射機對鄰居用戶的干擾狀態,以及對應的被干擾鄰居的頻譜效益。
6.根據權利要求2至5任意一項所述的方法,其特征在于,所述發射機的直接增益包括:所述發射機在當前時刻的發射機當前增益,以及所述發射機在至少一個歷史回退時刻的發射機先前增益。
7.根據權利要求1所述的方法,其特征在于,還包括步驟:
觀測執行所述當前功率分配方案之后的動作執行后狀態;
基于所述動作執行后狀態,計算執行所述當前功率分配方案之后的動作執行回報;
將所述當前環境狀態、當前功率分配方案、動作執行后狀態、動作執行后回報發送給神經網絡訓練端。
8.根據權利要求7所述的方法,其特征在于,基于所述動作執行后狀態,計算執行所述當前功率分配方案之后的動作執行回報,包括:
獲取所述發射機所在D2D對的頻譜效用,由于所述發射機引起的干擾造成的總降低頻譜效用,對基站造成的干擾所產生的懲罰;
基于所述頻譜效用、所述總降低頻譜效用、以及所述懲罰,確定所述動作執行回報。
9.一種基于深度強化學習的多用戶子載波功率分配方法,其特征在于,包括步驟:
獲取預定數量的經驗回放樣本,所述經驗回放樣本包括對應的當前環境狀態,所述當前環境狀態包括:發射機本地狀態,基站狀態,干擾鄰居狀態以及被干擾鄰居狀態;
采用所述經驗回放樣本對用來評估動作的第二神經網絡進行訓練,獲得訓練后的第二神經網絡,所述訓練后的第二神經網絡中包括最優動作值評估參數;
在滿足參數更新條件時,將所述最優動作值評估參數發送給發射機,以使得所述發射機采用所述最優動作值評估參數更新用來進行動作選擇的第一神經網絡,所述第一神經網絡用于發射機進行當前功率分配方案的確定,所述第二神經網絡與所述第一神經網絡的結構相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010579195.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:幀內色度預測模式快速選擇
- 下一篇:一種拉布裁布疊布系統





