[發明專利]一種基于強化學習的水聲通信自適應調制編碼算法在審
| 申請號: | 202210059529.5 | 申請日: | 2022-01-19 |
| 公開(公告)號: | CN114401073A | 公開(公告)日: | 2022-04-26 |
| 發明(設計)人: | 唐軍;鄧兆才;黨召凱 | 申請(專利權)人: | 江西理工大學 |
| 主分類號: | H04L1/00 | 分類號: | H04L1/00;H04B11/00;H04B13/02;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 341000 *** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 通信 自適應 調制 編碼 算法 | ||
1.一種基于強化學習的水聲通信自適應調制編碼算法,其特征在于,包括以下步驟:
S1:將強化學習與自適應調制編碼系統結合,設定Q表三要素:state、action、reward,建立Q表并初始化Q表;
S2:發射端在初始時刻隨機選擇調制編碼方式發送信號,接收端處理信號并發送反饋信號至發射端;
S3:下一時刻,發射端接收反饋信號,根據S1和r1更新Q表,獲取S2對應的Q表,在Q表中選擇s2狀態下獎勵最大的動作a2對信號進行調制編碼處理,隨后發射信號;
S4:接收端接收S3中自適應調制編碼系統處理的信號并進行解調譯碼,同時將相關數據反饋至發射端;
S5:發射端分析反饋數據,再次更新Q表并利用強化學習算法根據Q表選擇最佳調制編碼方式,發射端執行動作并發送信號;
S6:通信系統反復進行S2-S5步驟,經過強化學習多次學習后,實現對通信系統誤幀率和吞吐量的優化。
2.根據權利要求1所述的基于強化學習的水聲通信自適應調制編碼算法,其特征在于,所述步驟s1中:
(1)選取不同時刻的信噪比作為狀態state:
信噪比計算公式:
其中,為信道沖激響應函數,為方差;
(2)根據不同大小的信噪比所選擇的調制方式和編碼速率作為動作action;
(3)不同的調制方式和編碼速率所獲得的吞吐量作為獎勵reward:
吞吐量計算公式:
其中,信號發送的時間用T來表示,BER為誤碼率,M為調制階數,N代表T時間內發送的符號數目。
3.根據權利要求1所述的基于強化學習的水聲通信自適應調制編碼算法,其特征在于,所述步驟s2中:
初始時刻的狀態定義為S1,所選取的動作定義為a1,獲得的獎勵定義為r1,發射端在初始時刻隨機選擇動作a1,自適應調制編碼模塊執行動作a1對信號進行處理,經過調制編碼之后,發射端發射信號,接收端接收信號并進行解調和譯碼,然后通過反饋模塊發送數據給發射端,發射端接收數據根據狀態S1、動作a1計算獎勵r1。
4.根據權利要求1所述的基于強化學習的水聲通信自適應調制編碼算法,其特征在于,所述步驟s3中:
(1)Q表更新公式如下:
Q′(St,a)=Q(St,a)+α(rt+γQ(St+1,a′)-Q(St,a))
其中,rt是在狀態St所選動作帶來的獎勵,γ是衰減因子,Q(St+1,a′)表示在狀態St+1下的Q值,Q(St,a)表示在狀態St下的Q值,Q′(St,a)代表更新后的Q值,α表示學習效率。
5.根據權利要求1所述的基于強化學習的水聲通信自適應調制編碼算法,其特征在于,所述步驟s3中:
在發射端采用ε-greedy選取調制編碼方式,首先設定一個合理的ε數值,ε的大小應是動態變化,隨著迭代次數的增加而減少探索概率,避免陷入局部最優解。
6.根據權利要求1所述的基于強化學習的水聲通信自適應調制編碼算法,其特征在于,所述步驟s4中:
接收端對信號進行處理之后,打包相關數據,選擇低階調制方式將數據發送給發射端,保證數據傳輸的可靠性。
7.根據權利要求1所述的基于強化學習的水聲通信自適應調制編碼算法,其特征在于,所述步驟s5、s6中:
通信系統利用強化學習算法選取不同的調制編碼方式同時采用ε-greedy策略防止陷入局部最優解,通過強化學習算法不斷地學習,通信系統的誤幀率有效降低,吞吐量明顯提升。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江西理工大學,未經江西理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210059529.5/1.html,轉載請聲明來源鉆瓜專利網。





