[發(fā)明專利]一種基于多智能體強化學習的分布式信道競爭方法在審

申請?zhí)枺?/td>	202210018613.2	申請日：	2022-01-08
公開（公告）號：	CN114375066A	公開（公告）日：	2022-04-19
發(fā)明（設計）人：	鄒逸飛;于東曉;徐標;徐明輝	申請（專利權）人：	山東大學
主分類號：	H04W74/08	分類號：	H04W74/08;G06N20/00
代理公司：	青島華慧澤專利代理事務所(普通合伙) 37247	代理人：	付秀穎
地址：	250013 山***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于智能強化學習分布式信道競爭方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于多智能體強化學習的分布式信道競爭方法，其特征在于，包括如下步驟：

步驟1：構建分布式信道競爭場景，并且構建多智能體強化學習所需的基本元素，包括環(huán)境、智能體、狀態(tài)、動作以及獎勵函數(shù)；

步驟2：構建方法所需多智能體強化學習模型；

步驟3：智能體與環(huán)境進行交互，令各個智能體構建各自的經(jīng)驗回放集合，用以訓練多智能體強化學習模型；

步驟4：將訓練完成的模型用于分布式信道競爭。

2.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法，其特征在于，分布式信道競爭場景為：

在一個網(wǎng)絡系統(tǒng)中，K個網(wǎng)絡接入點共享一個信道，這些網(wǎng)絡接入點屬于不同的網(wǎng)絡結構，彼此之間不通信；將時間分為多個時間片，設定信道在某一時間片內(nèi)只能被單個網(wǎng)絡接入點使用，當某一時間片有多個網(wǎng)絡接入點使用時則信道傳輸失敗。

3.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法，其特征在于，多智能體強化學習的環(huán)境構建過程如下：

構建分布式信道競爭仿真場景作為多智能體強化學習的交互環(huán)境，智能體可以獲取到上一輪的信道狀態(tài)，環(huán)境會依據(jù)智能體的動作，進行模擬，計算出信道狀態(tài)以及給出各智能體相應的獎勵值。

4.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法，其特征在于，多智能體強化學習的智能體構建過程如下：

構建信道競爭智能體K個，各個智能體通過與環(huán)境交互，以此構建經(jīng)驗回放集合，不斷從中選取批次用于訓練；每個智能體只能觀測到公共的信道狀態(tài)以及自身的狀態(tài)，各智能體之間無法進行信息交互，在沒有信息交流的情況下，共同實現(xiàn)較為公平的基于多智能體強化學習的分布式信道競爭。

5.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法，其特征在于，

構建多智能體強化學習所需狀態(tài)，分為兩類，一類是所有智能體都能觀測到的，稱之為公共狀態(tài)S^pub，為信道狀態(tài)以及之后訓練所用到的噪聲方差；另一類是私有狀態(tài)S^pri，各個智能體只能觀測到各自的私有狀態(tài)，無法得知其它智能體的私有狀態(tài)，私有狀態(tài)包含智能體的傳輸概率以及傳輸成功率。

6.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法，其特征在于，

構建智能體調(diào)整各自概率動作A＝{α₁,α₂,...α_K}，其中，K表示智能體的個數(shù)，每個α_i表示智能體i對自身傳輸概率值的調(diào)整，α_i值的區(qū)間為[-0.5,0.5]，智能體i的傳輸概率在采取動作后會更新為p_i’＝p_i*(1+a_i)。

7.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法，其特征在于，構建智能體獎勵函數(shù)，獎勵函數(shù)主要由兩部分組成：

結果獎勵：根據(jù)某一時間片內(nèi)信道的狀態(tài)，會給予各個智能體相應的獎勵，對于智能體i，其在第t個時間片的結果獎勵為：

其中Z是一個給定的值，N_i(t)表示智能體i在t個時間片內(nèi)的總的使用信道成功次數(shù)，N_j(t)表示智能體j在t個時間片內(nèi)的總的使用信道成功次數(shù)，當某一時間片沒有智能體使用信道時，則信道狀態(tài)為空閑；當有兩個或兩個以上智能體使用信道時，則信道狀態(tài)為繁忙；

經(jīng)驗獎勵：根據(jù)某一時間片內(nèi)智能體的動作以及信道狀態(tài)的改變，給予智能體引導性獎勵，對于智能體i，其在第t個時間片的經(jīng)驗獎勵為：

其中A_i(t)表示智能體i在t時間片做出的動作，即對自身傳輸概率值的調(diào)整，p_i(t)表示智能體i在t時間片的概率，經(jīng)驗獎勵的大小與概率值的改變相關。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于山東大學，未經(jīng)山東大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210018613.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種無線網(wǎng)絡中基于多智能體強化學習的領導人選舉方法
下一篇：機箱視覺測試機臺系統(tǒng)

同類專利

專利分類

H 電學

H04 電通信技術
H04W 無線通信網(wǎng)絡
H04W74-00 無線信道接入，例如，調(diào)度接入或隨機接入
H04W74-02 .混合接入技術
H04W74-04 .調(diào)度接入
H04W74-08 .非調(diào)度接入，例如，隨機接入，ALOHA或CSMA[載波檢測多路接入]
H04W74-06 ..使用輪詢

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】