[發(fā)明專利]一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法在審

申請?zhí)枺?/td>	202210018612.8	申請日：	2022-01-08
公開（公告）號：	CN114375022A	公開（公告）日：	2022-04-19
發(fā)明（設(shè)計(jì)）人：	鄒逸飛;于東曉;徐標(biāo);徐明輝	申請（專利權(quán)）人：	山東大學(xué)
主分類號：	H04W40/24	分類號：	H04W40/24;H04W40/32;H04L41/14;G06N20/00
代理公司：	青島華慧澤專利代理事務(wù)所(普通合伙) 37247	代理人：	付秀穎
地址：	250013 山***	國省代碼：	山東;37
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種無線網(wǎng)絡(luò) 基于智能強(qiáng)化學(xué)習(xí) 領(lǐng)導(dǎo)人選舉方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法，其特征在于，包括如下步驟：

S1.構(gòu)建無線網(wǎng)絡(luò)領(lǐng)導(dǎo)人選舉場景，用于與智能體交互；

構(gòu)建領(lǐng)導(dǎo)人選舉所需多智能體強(qiáng)化學(xué)習(xí)模型；

S2.對模型進(jìn)行訓(xùn)練使模型參數(shù)最優(yōu)化；

S3.各智能體加載訓(xùn)練好的模型參數(shù)，根據(jù)模型做出決策，實(shí)現(xiàn)領(lǐng)導(dǎo)人選舉。

2.根據(jù)權(quán)利要求1所述的一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法，其特征在于，領(lǐng)導(dǎo)人選舉場景為：

在無線網(wǎng)絡(luò)環(huán)境中，存在K個(gè)領(lǐng)導(dǎo)人候補(bǔ)節(jié)點(diǎn)和一個(gè)無線信道，時(shí)間被分為多個(gè)時(shí)間片，各候補(bǔ)節(jié)點(diǎn)間彼此無法通信，且信道在某一時(shí)間片內(nèi)只能被單個(gè)節(jié)點(diǎn)占用；在每個(gè)時(shí)間片內(nèi)，各候補(bǔ)節(jié)點(diǎn)會對自身的選舉概率進(jìn)行調(diào)整，根據(jù)調(diào)整后的選舉概率選擇是否參與選舉，參與選舉的節(jié)點(diǎn)會去搶占信道，依據(jù)每個(gè)時(shí)間片內(nèi)信道的狀態(tài)，環(huán)境會給予各節(jié)點(diǎn)反饋，當(dāng)參與選舉的節(jié)點(diǎn)數(shù)量為1時(shí)，即信道被成功占用時(shí)，則為選舉成功；當(dāng)沒有參與選舉的節(jié)點(diǎn)或參與選舉的節(jié)點(diǎn)數(shù)量不等于1時(shí)，即信道未被成功占用時(shí)，此時(shí)選舉失敗。

3.根據(jù)權(quán)利要求1所述的一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法，其特征在于，多智能體強(qiáng)化學(xué)習(xí)模型為：

在各個(gè)智能體處都構(gòu)建DDPG強(qiáng)化學(xué)習(xí)模型，每個(gè)智能體都被看作是參與領(lǐng)導(dǎo)人選舉的候補(bǔ)節(jié)點(diǎn)；

每個(gè)智能體的DDPG模型包括四個(gè)全連接網(wǎng)絡(luò)，分別是當(dāng)前策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、當(dāng)前評論網(wǎng)絡(luò)以及目標(biāo)評論網(wǎng)絡(luò)；

所述當(dāng)前策略網(wǎng)絡(luò)，輸入為t時(shí)間片的狀態(tài)，輸出為t時(shí)間片的動作，及對t時(shí)間片的選舉概率的增長百分比；

所述目標(biāo)策略網(wǎng)絡(luò)，輸入為t+1時(shí)間片的狀態(tài)，輸出為t+1時(shí)間片的動作，及對t+1時(shí)間片的選舉概率的增長百分比；

所述當(dāng)前評論網(wǎng)絡(luò)，輸入為t時(shí)間片的狀態(tài)和當(dāng)前策略網(wǎng)絡(luò)的輸出，輸出為對t時(shí)間片此狀態(tài)下采取此動作的價(jià)值的評估值；

所述目標(biāo)評論網(wǎng)絡(luò)，輸入為t+1時(shí)間片的狀態(tài)和當(dāng)前策略網(wǎng)絡(luò)的輸出，輸出為對t+1時(shí)間片此狀態(tài)下采取此動作的價(jià)值的評估值。

4.根據(jù)權(quán)利要求3所述的一種無線網(wǎng)絡(luò)中基于多智能體強(qiáng)化學(xué)習(xí)的領(lǐng)導(dǎo)人選舉方法，其特征在于，當(dāng)前策略網(wǎng)絡(luò)和當(dāng)前評論網(wǎng)絡(luò)的輸入為t時(shí)間片的狀態(tài)，通過如下步驟獲得：

在每個(gè)時(shí)間片內(nèi)的初始階段，各智能體會調(diào)整各自的選舉概率，根據(jù)此概率選擇在此時(shí)間片之后的階段內(nèi)是否參與領(lǐng)導(dǎo)人選舉，即是否占用無線信道，根據(jù)此時(shí)間片內(nèi)的信道使用情況，環(huán)境會給各智能體反饋選舉結(jié)果；

對于t時(shí)間片當(dāng)前策略網(wǎng)絡(luò)和當(dāng)前評論網(wǎng)絡(luò)，t-1時(shí)間片的選舉結(jié)果會作為它們輸入的一部分；

各智能體將t時(shí)間片自己的選舉概率以及上述t-1時(shí)間片的選舉結(jié)果組合，作為各智能體t時(shí)間片的狀態(tài)張量；

組合成的狀態(tài)張量即為t時(shí)間片當(dāng)前策略網(wǎng)絡(luò)和當(dāng)前評論網(wǎng)絡(luò)的輸入。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué)，未經(jīng)山東大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210018612.8/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種顆粒物混勻裝置及方法
下一篇：一種基于多智能體強(qiáng)化學(xué)習(xí)的分布式信道競爭方法

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04W 無線通信網(wǎng)絡(luò)
H04W40-00 通信路由或通信路徑查找
H04W40-02 .通信路由或路徑選擇，例如，基于功率的或最短路徑路由
H04W40-24 .連接性信息管理，例如，連接性發(fā)現(xiàn)或連接性更新
H04W40-34 .現(xiàn)有路由的更改
H04W40-36 ..由于切換
H04W40-38 ..由于改變節(jié)點(diǎn)之間相對距離的適應(yīng)

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】