[發(fā)明專利]一種基于多智能體強化學習的分布式信道競爭方法在審
| 申請?zhí)枺?/td> | 202210018613.2 | 申請日: | 2022-01-08 |
| 公開(公告)號: | CN114375066A | 公開(公告)日: | 2022-04-19 |
| 發(fā)明(設計)人: | 鄒逸飛;于東曉;徐標;徐明輝 | 申請(專利權)人: | 山東大學 |
| 主分類號: | H04W74/08 | 分類號: | H04W74/08;G06N20/00 |
| 代理公司: | 青島華慧澤專利代理事務所(普通合伙) 37247 | 代理人: | 付秀穎 |
| 地址: | 250013 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 強化 學習 分布式 信道 競爭 方法 | ||
1.一種基于多智能體強化學習的分布式信道競爭方法,其特征在于,包括如下步驟:
步驟1:構建分布式信道競爭場景,并且構建多智能體強化學習所需的基本元素,包括環(huán)境、智能體、狀態(tài)、動作以及獎勵函數(shù);
步驟2:構建方法所需多智能體強化學習模型;
步驟3:智能體與環(huán)境進行交互,令各個智能體構建各自的經(jīng)驗回放集合,用以訓練多智能體強化學習模型;
步驟4:將訓練完成的模型用于分布式信道競爭。
2.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法,其特征在于,分布式信道競爭場景為:
在一個網(wǎng)絡系統(tǒng)中,K個網(wǎng)絡接入點共享一個信道,這些網(wǎng)絡接入點屬于不同的網(wǎng)絡結構,彼此之間不通信;將時間分為多個時間片,設定信道在某一時間片內(nèi)只能被單個網(wǎng)絡接入點使用,當某一時間片有多個網(wǎng)絡接入點使用時則信道傳輸失敗。
3.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法,其特征在于,多智能體強化學習的環(huán)境構建過程如下:
構建分布式信道競爭仿真場景作為多智能體強化學習的交互環(huán)境,智能體可以獲取到上一輪的信道狀態(tài),環(huán)境會依據(jù)智能體的動作,進行模擬,計算出信道狀態(tài)以及給出各智能體相應的獎勵值。
4.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法,其特征在于,多智能體強化學習的智能體構建過程如下:
構建信道競爭智能體K個,各個智能體通過與環(huán)境交互,以此構建經(jīng)驗回放集合,不斷從中選取批次用于訓練;每個智能體只能觀測到公共的信道狀態(tài)以及自身的狀態(tài),各智能體之間無法進行信息交互,在沒有信息交流的情況下,共同實現(xiàn)較為公平的基于多智能體強化學習的分布式信道競爭。
5.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法,其特征在于,
構建多智能體強化學習所需狀態(tài),分為兩類,一類是所有智能體都能觀測到的,稱之為公共狀態(tài)Spub,為信道狀態(tài)以及之后訓練所用到的噪聲方差;另一類是私有狀態(tài)Spri,各個智能體只能觀測到各自的私有狀態(tài),無法得知其它智能體的私有狀態(tài),私有狀態(tài)包含智能體的傳輸概率以及傳輸成功率。
6.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法,其特征在于,
構建智能體調(diào)整各自概率動作A={α1,α2,...αK},其中,K表示智能體的個數(shù),每個αi表示智能體i對自身傳輸概率值的調(diào)整,αi值的區(qū)間為[-0.5,0.5],智能體i的傳輸概率在采取動作后會更新為pi’=pi*(1+ai)。
7.根據(jù)權利要求1所述的基于多智能體強化學習的分布式信道競爭方法,其特征在于,構建智能體獎勵函數(shù),獎勵函數(shù)主要由兩部分組成:
結果獎勵:根據(jù)某一時間片內(nèi)信道的狀態(tài),會給予各個智能體相應的獎勵,對于智能體i,其在第t個時間片的結果獎勵為:
其中Z是一個給定的值,Ni(t)表示智能體i在t個時間片內(nèi)的總的使用信道成功次數(shù),Nj(t)表示智能體j在t個時間片內(nèi)的總的使用信道成功次數(shù),當某一時間片沒有智能體使用信道時,則信道狀態(tài)為空閑;當有兩個或兩個以上智能體使用信道時,則信道狀態(tài)為繁忙;
經(jīng)驗獎勵:根據(jù)某一時間片內(nèi)智能體的動作以及信道狀態(tài)的改變,給予智能體引導性獎勵,對于智能體i,其在第t個時間片的經(jīng)驗獎勵為:
其中Ai(t)表示智能體i在t時間片做出的動作,即對自身傳輸概率值的調(diào)整,pi(t)表示智能體i在t時間片的概率,經(jīng)驗獎勵的大小與概率值的改變相關。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經(jīng)山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210018613.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





