[發明專利]一種基于強化學習的水聲通信自適應調制方法有效
| 申請號: | 201910813009.7 | 申請日: | 2019-08-30 |
| 公開(公告)號: | CN110519013B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 張育芝;李萍;王安義;孫彥景;王斌;劉洋 | 申請(專利權)人: | 西安科技大學 |
| 主分類號: | H04L1/00 | 分類號: | H04L1/00;H04B13/02;G06N20/00 |
| 代理公司: | 西安維賽恩專利代理事務所(普通合伙) 61257 | 代理人: | 劉春 |
| 地址: | 710054 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 通信 自適應 調制 方法 | ||
1.一種基于強化學習的水聲通信自適應調制方法,其特征在于,所述方法基于水聲自適應調制系統,所述系統包含發送端和接收端,發送端包含自適應調制模塊和強化學習模塊,接收端包括接收解調模塊和反饋模塊;
具體包括以下步驟:
步驟1、設定水聲自適應調制系統的Q表三要素:狀態集S、動作集A和獎勵集R,建立并初始化水聲自適應調制系統Q表;
在初始時刻,采用隨機選擇策略,從動作集A中選取a作為初始時刻狀態st下所采取的動作;發送端的自適應調制模塊執行所述動作a,在時變水聲信道中發送信號給接收端,接收端的接收解調模塊解調信號并通過反饋模塊反饋數據包給發送端,發送端根據接收的數據包計算得到狀態st下動作a的獎勵值rt;
步驟2、下一時刻,系統從狀態st到達狀態st+1,根據所述狀態st+1、以及獎勵值rt,更新狀態st中的水聲自適應調制系統Q表作為狀態st+1的Q表,并在狀態st+1下根據更新后的水聲自適應調制系統Q表選擇最佳調制方式,即采用貪婪算法來選擇下一動作a'執行;
其中,所述步驟2中,更新自適應調制系統Q表的計算公式如下:
ΔQ=rt+γQ(st+1,a′)-Q(st,a),
Q′(st,a)=Q(st,a)+α[ΔQ],
其中,rt是在狀態st所選動作帶來的獎勵,γ是衰減因子,Q(st+1,a′)表示在狀態下st+1的Q值,Q(st,a)表示在狀態st下的Q值,ΔQ表示所選擇動作獲得的獎勵與狀態st下所獲獎勵的差距,Q′(st,a)代表更新后的Q值,α表示學習效率;
所述步驟2中用貪婪算法選擇調制方式的具體內容為:
選擇原則為arg max{Q(st+1,a′)};為避免陷入局部最優,設定貪婪因子e,在概率為1-e的情況下選擇選擇Q表中對應狀態下的最優值為當前動作的策略;概率為e的情況下去探索新的可能作為當前動作的策略;
步驟3、發送端使用所述步驟2中選擇的最佳調制方式調制信號,通過自適應調制模塊將信號經水聲信道發送至接收端;
步驟4、接收端的接收解調模塊接收所述步驟3中經過水聲信道傳輸來的信號,解調獲得相關信息,送入反饋模塊并以數據包的形式反饋相關信息到發送端;
步驟5、發送端根據接收到的數據包,將獲取的信息送入強化學習模塊,計算并更新執行動作a'所獲得的獎勵值rt+1,更新參數,將st+1賦值給st,將rt+1賦值給rt,為下一時刻的更新Q表做好準備;
步驟6、重復步驟2—步驟5,直至信號發送結束,最終可得經過強化學習優化自適應調制的系統吞吐量。
2.根據權利要求1所述的一種基于強化學習的水聲通信自適應調制方法,其特征在于,所述步驟1中:
定義狀態集S為各時刻的信道狀態,用實效信噪比衡量,計算公式為
其中,s(t)為發送信號,為估計的信道響應,r(t)為接收信號,不同于接收信噪比的定義,實效信噪比中的噪聲不僅包含環境噪聲,還包含實際信道狀態信息估計過程的誤差和系統噪聲;
定義動作集A為不同的發送載波調制方式,既可以是單載波也可以是多載波調制;
定義獎勵集R為一定信道狀態s下執行一定動作a所獲得的吞吐量,其中Pt為誤碼率,M為調制階數;
建立水聲自適應調制系統Q表,某一狀態下某一動作對應Q值在自適應調制過程中是動態變化的,初始化水聲自適應調制系統Q表,即將Q表中的Q值設置為全零,初始時刻發送端在動作集A中隨機選擇一種調制方式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安科技大學,未經西安科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910813009.7/1.html,轉載請聲明來源鉆瓜專利網。





