[發(fā)明專利]一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法在審
| 申請?zhí)枺?/td> | 202210018612.8 | 申請日: | 2022-01-08 |
| 公開(公告)號: | CN114375022A | 公開(公告)日: | 2022-04-19 |
| 發(fā)明(設(shè)計(jì))人: | 鄒逸飛;于東曉;徐標(biāo);徐明輝 | 申請(專利權(quán))人: | 山東大學(xué) |
| 主分類號: | H04W40/24 | 分類號: | H04W40/24;H04W40/32;H04L41/14;G06N20/00 |
| 代理公司: | 青島華慧澤專利代理事務(wù)所(普通合伙) 37247 | 代理人: | 付秀穎 |
| 地址: | 250013 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 無線網(wǎng)絡(luò) 基于 智能 強(qiáng)化 學(xué)習(xí) 領(lǐng)導(dǎo)人 選舉 方法 | ||
1.一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法,其特征在于,包括如下步驟:
S1.構(gòu)建無線網(wǎng)絡(luò)領(lǐng)導(dǎo)人選舉場景,用于與智能體交互;
構(gòu)建領(lǐng)導(dǎo)人選舉所需多智能體強(qiáng)化學(xué)習(xí)模型;
S2.對模型進(jìn)行訓(xùn)練使模型參數(shù)最優(yōu)化;
S3.各智能體加載訓(xùn)練好的模型參數(shù),根據(jù)模型做出決策,實(shí)現(xiàn)領(lǐng)導(dǎo)人選舉。
2.根據(jù)權(quán)利要求1所述的一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法,其特征在于,領(lǐng)導(dǎo)人選舉場景為:
在無線網(wǎng)絡(luò)環(huán)境中,存在K個(gè)領(lǐng)導(dǎo)人候補(bǔ)節(jié)點(diǎn)和一個(gè)無線信道,時(shí)間被分為多個(gè)時(shí)間片,各候補(bǔ)節(jié)點(diǎn)間彼此無法通信,且信道在某一時(shí)間片內(nèi)只能被單個(gè)節(jié)點(diǎn)占用;在每個(gè)時(shí)間片內(nèi),各候補(bǔ)節(jié)點(diǎn)會對自身的選舉概率進(jìn)行調(diào)整,根據(jù)調(diào)整后的選舉概率選擇是否參與選舉,參與選舉的節(jié)點(diǎn)會去搶占信道,依據(jù)每個(gè)時(shí)間片內(nèi)信道的狀態(tài),環(huán)境會給予各節(jié)點(diǎn)反饋,當(dāng)參與選舉的節(jié)點(diǎn)數(shù)量為1時(shí),即信道被成功占用時(shí),則為選舉成功;當(dāng)沒有參與選舉的節(jié)點(diǎn)或參與選舉的節(jié)點(diǎn)數(shù)量不等于1時(shí),即信道未被成功占用時(shí),此時(shí)選舉失敗。
3.根據(jù)權(quán)利要求1所述的一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法,其特征在于,多智能體強(qiáng)化學(xué)習(xí)模型為:
在各個(gè)智能體處都構(gòu)建DDPG強(qiáng)化學(xué)習(xí)模型,每個(gè)智能體都被看作是參與領(lǐng)導(dǎo)人選舉的候補(bǔ)節(jié)點(diǎn);
每個(gè)智能體的DDPG模型包括四個(gè)全連接網(wǎng)絡(luò),分別是當(dāng)前策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、當(dāng)前評論網(wǎng)絡(luò)以及目標(biāo)評論網(wǎng)絡(luò);
所述當(dāng)前策略網(wǎng)絡(luò),輸入為t時(shí)間片的狀態(tài),輸出為t時(shí)間片的動作,及對t時(shí)間片的選舉概率的增長百分比;
所述目標(biāo)策略網(wǎng)絡(luò),輸入為t+1時(shí)間片的狀態(tài),輸出為t+1時(shí)間片的動作,及對t+1時(shí)間片的選舉概率的增長百分比;
所述當(dāng)前評論網(wǎng)絡(luò),輸入為t時(shí)間片的狀態(tài)和當(dāng)前策略網(wǎng)絡(luò)的輸出,輸出為對t時(shí)間片此狀態(tài)下采取此動作的價(jià)值的評估值;
所述目標(biāo)評論網(wǎng)絡(luò),輸入為t+1時(shí)間片的狀態(tài)和當(dāng)前策略網(wǎng)絡(luò)的輸出,輸出為對t+1時(shí)間片此狀態(tài)下采取此動作的價(jià)值的評估值。
4.根據(jù)權(quán)利要求3所述的一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法,其特征在于,當(dāng)前策略網(wǎng)絡(luò)和當(dāng)前評論網(wǎng)絡(luò)的輸入為t時(shí)間片的狀態(tài),通過如下步驟獲得:
在每個(gè)時(shí)間片內(nèi)的初始階段,各智能體會調(diào)整各自的選舉概率,根據(jù)此概率選擇在此時(shí)間片之后的階段內(nèi)是否參與領(lǐng)導(dǎo)人選舉,即是否占用無線信道,根據(jù)此時(shí)間片內(nèi)的信道使用情況,環(huán)境會給各智能體反饋選舉結(jié)果;
對于t時(shí)間片當(dāng)前策略網(wǎng)絡(luò)和當(dāng)前評論網(wǎng)絡(luò),t-1時(shí)間片的選舉結(jié)果會作為它們輸入的一部分;
各智能體將t時(shí)間片自己的選舉概率以及上述t-1時(shí)間片的選舉結(jié)果組合,作為各智能體t時(shí)間片的狀態(tài)張量;
組合成的狀態(tài)張量即為t時(shí)間片當(dāng)前策略網(wǎng)絡(luò)和當(dāng)前評論網(wǎng)絡(luò)的輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210018612.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 無線網(wǎng)絡(luò)裝置的設(shè)定方法
- 無線網(wǎng)絡(luò)配置方法和終端、及無線網(wǎng)絡(luò)預(yù)測方法和設(shè)備
- 城市無線接入平臺
- 可穿戴設(shè)備、獲取無線網(wǎng)絡(luò)屬性信息的方法及系統(tǒng)
- 基于無線網(wǎng)絡(luò)的無線網(wǎng)卡設(shè)備自動配置方法
- 一種無線網(wǎng)絡(luò)處理方法及移動終端
- 實(shí)現(xiàn)生成優(yōu)質(zhì)無線網(wǎng)絡(luò)庫的方法及系統(tǒng)
- 一種無線網(wǎng)絡(luò)裝置的相關(guān)設(shè)定方法
- 一種信息數(shù)據(jù)終端
- 一種通信終端及無線網(wǎng)絡(luò)切換的方法





