[發明專利]一種分布式信道匯聚策略生成方法及裝置有效
| 申請號: | 202111585624.0 | 申請日: | 2021-12-23 |
| 公開(公告)號: | CN113987963B | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 鐘都都;莊信武;張偉科;王帥;宋哲;苗夏箐 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/00;G06N3/08;H04B17/391;G06F111/06;G06F111/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 任少瑞 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 信道 匯聚 策略 生成 方法 裝置 | ||
1.一種分布式信道匯聚策略生成方法,其特征在于,包括:
構建基于深度強化學習網絡的信道匯聚優化模型,并對所述信道匯聚優化模型的參數進行初始化;其中,所述信道匯聚優化模型的智能體與無人集群系統的用戶端一一對應,所述用戶端的信道占用狀態對應于所述信道匯聚優化模型的狀態空間,所述用戶端的信道選取策略對應于所述信道匯聚優化模型的動作空間;
根據預設的用戶端序列確定多智能體優化順序,并基于所述多智能體優化順序對各個智能體進行迭代學習;
針對每一所述智能體根據當前的退火溫度以及當前狀態從所述動作空間中選擇出作用于環境的執行動作,并根據當前的回報值基于預設的貝爾曼方程對每一智能體對應的Q值進行更新;其中,所述回報值由所述環境根據當前的信道情況生成;
在根據與所述執行動作相對應的信道選取策略進行信道盲匯聚之后,對所述狀態空間、所述回報值和所述退火溫度進行更新;
當重復迭代學習的過程直至所述退火溫度達到預設的結束溫度且累計回報值滿足預設的穩態條件時,根據所有智能體的Q值之和生成最優盲匯聚策略;其中,所述累計回報為迭代學習過程中所有回報值之和;
所述回報值的生成方式包括:計算當前的用戶端對應的MOS值,按預設的回報值獎勵函數對所述MOS值進行轉換,生成得到當前的智能體的回報值;其中,所述MOS值為用戶端的平均意見得分。
2.根據權利要求1所述的分布式信道匯聚策略生成方法,其特征在于,所述用戶端序列的確定方式包括:對所述無人集群系統的所有用戶端進行排列組合,并將所有排列組合情況對應的序列作為所述用戶端序列。
3.根據權利要求1所述的分布式信道匯聚策略生成方法,其特征在于,所述按預設的回報值獎勵函數對所述MOS值進行轉換,生成得到當前的智能體的回報值,還包括:
當判斷所述MOS值低于預設的門限值時,將預設的負反饋值作為當前的智能體的回報值。
4.根據權利要求1所述的分布式信道匯聚策略生成方法,其特征在于,對所述信道匯聚優化模型的參數進行初始化,包括:
對用于匯總所有Q值的Q矩陣初始化為全零矩陣;
根據預設的配置信息對所述貝爾曼方程的學習率和折扣因子以及模擬退火算法的初始溫度進行初始化。
5.一種分布式信道匯聚策略生成裝置,其特征在于,包括:
初始化模塊,用于構建基于深度強化學習網絡的信道匯聚優化模型,并對所述信道匯聚優化模型的參數進行初始化;其中,所述信道匯聚優化模型的智能體與無人集群系統的用戶端一一對應,所述用戶端的信道占用狀態對應于所述信道匯聚優化模型的狀態空間,所述用戶端的信道選取策略對應于所述信道匯聚優化模型的動作空間;
順序確定模塊,用于根據預設的用戶端序列確定多智能體優化順序,并基于所述多智能體優化順序對各個智能體進行迭代學習;
動作交互模塊,用于針對每一所述智能體根據當前的退火溫度以及當前狀態從所述動作空間中選擇出作用于環境的執行動作,并根據當前的回報值基于預設的貝爾曼方程對每一智能體對應的Q值進行更新;其中,所述回報值由所述環境根據當前的信道情況生成;所述動作交互模塊具體還用于:計算當前的用戶端對應的MOS值,按預設的回報值獎勵函數對所述MOS值進行轉換,生成得到當前的智能體的回報值;其中,所述MOS值為用戶端的平均意見得分;
模型更新模塊,用于在根據與所述執行動作相對應的信道選取策略進行信道盲匯聚之后,對所述狀態空間、所述回報值和所述退火溫度進行更新;
策略生成模塊,用于當重復迭代學習的過程直至所述退火溫度達到預設的結束溫度且累計回報值滿足預設的穩態條件時,根據所有智能體的Q值之和生成最優盲匯聚策略;其中,所述累計回報為迭代學習過程中所有回報值之和。
6.根據權利要求5所述的分布式信道匯聚策略生成裝置,其特征在于,所述順序確定模塊具體還用于:對所述無人集群系統的所有用戶端進行排列組合,并將所有排列組合情況對應的序列作為所述用戶端序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111585624.0/1.html,轉載請聲明來源鉆瓜專利網。





