[發明專利]一種基于強化學習的波束訓練方法有效
| 申請號: | 202110548704.2 | 申請日: | 2021-05-20 |
| 公開(公告)號: | CN113285740B | 公開(公告)日: | 2023-02-14 |
| 發明(設計)人: | 楊綠溪;張天怡;徐佩欽;周京鵬;俞菲;徐琴珍 | 申請(專利權)人: | 東南大學 |
| 主分類號: | H04B7/0426 | 分類號: | H04B7/0426;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 孫建朋 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 波束 訓練 方法 | ||
1.一種基于強化學習的波束訓練方法,其特征在于,包括以下步驟:
步驟1、在初始時隙內,基站搜索整個碼本找到波束作為發送波束;
步驟2、初始化強化學習Q值估計網絡、目標Q值網絡和經驗池D;
步驟3、在每一個時隙t內,通過上一時隙t-1內的波束訓練結果得到時隙t的狀態信息st,并將st輸入Q值估計網絡,得到動作價值估計值,選取價值最大的動作at;
步驟4、在時隙t內執行動作at,計算獎勵值rt,并根據波束訓練結果得到下一時隙t+1的狀態信息st+1;
步驟5、在時隙t的剩余時間內傳輸有效數據,并將交互數據(st,at,rt,st+1)存入經驗池;
步驟6、在數據傳輸的后臺訓練網絡,更新Q值估計網絡和目標Q值網絡的網絡參數;
所述步驟2還包括以下步驟:初始化強化學習Q值估計網絡、目標Q值網絡和經驗池D;
步驟2.1,構建強化學習Q值估計網絡,包括一個輸入層、四個全連接層和一個輸出層,初始化Q值估計網絡的參數θ;
步驟2.2,構建強化學習目標Q值網絡,結構與Q值估計網絡相同,初始化目標Q值網絡的參數θ′=θ;
狀態信息輸入Q值估計網絡后,依次通過第一個全連接層、整流線性單元激活層、第二個全連接層、整流線性單元激活層、第三個全連接層、整流線性單元激活層和最后一個全連接層,最終輸出動作價值估計結果;
所述步驟1還包括以下步驟:
步驟1.1、通過對波束空間的均勻采樣來構建碼本:
其中,fi表示每一個波束,M為碼本的大?。籥(·)代表天線陣列響應向量;
a(·)的形式為:
其中,Nt為發射天線數量,λ和d分別表示信號的波長和天線單元的間距;
步驟1.2、測量碼本中每一個波束對應的接收信號強度,選擇接收信號強度最大的波束作為發送波束;
所述步驟4還包括以下步驟:
步驟4.1、在時隙t內執行動作at;at是一個二元組,at=(ai,bi);在時隙t內用于波束訓練的波束集合為:
其中,fc為上一時隙內的最佳波束;
步驟4.2,在時隙t內利用波束集合中的波束進行波束訓練,測量每一個波束對應的接收信號強度,并估計出等效信道向量
其中,hH為信道向量,f1,...,fM代表碼本中M個波束;將中的每個元素取模得到向量It,其中:It(i)和表示向量It和的第i個元素,將連續三個時隙內的It進行拼接得到狀態st+1=[It-2,It-1,It];
步驟4.3,計算動作at的獎勵值rt=(1-biT0/TS)log2(1+P|hHfk|2),其中,bi為時隙t內用于波束訓練的波束個數,T0為傳輸一個波束需要的時間,TS為一個時隙的總時長,P為基站的發射功率,fk為時隙t內的最佳波束;
所述步驟6還包括:
步驟6.1、在經驗池D中抽取交互數據,計算損失函數為:
其中,Q(st,at)代表輸入狀態信息st時,Q值估計網絡輸出的動作at的價值估計值,代表輸入狀態信息st+1時,目標Q值網絡輸出的最大的動作價值估計值,γ為衰減因子,rt為動作at的獎勵值,利用梯度下降法更新Q值估計網絡的參數θ;
步驟6.2、延遲更新目標Q值網絡的參數θ′=θ。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110548704.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于家電鉸鏈件焊接的轉盤式自動焊接裝置
- 下一篇:一種自適應式投影裝置





