[發(fā)明專利]一種基于SARSA(λ)算法的定向天線自組網(wǎng)鄰居發(fā)現(xiàn)方法在審
| 申請?zhí)枺?/td> | 202110193989.2 | 申請日: | 2021-02-21 |
| 公開(公告)號: | CN113015152A | 公開(公告)日: | 2021-06-22 |
| 發(fā)明(設(shè)計)人: | 郭蘭圖;唐懷玉;葛憲生;趙同明;趙亮;楊凱威;崔鵬程 | 申請(專利權(quán))人: | 中國電子科技集團公司第二十二研究所 |
| 主分類號: | H04W8/00 | 分類號: | H04W8/00;G06F17/11;G06F17/16 |
| 代理公司: | 青島博雅知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 37317 | 代理人: | 封代臣 |
| 地址: | 453002 河*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 sarsa 算法 定向天線 組網(wǎng) 鄰居 發(fā)現(xiàn) 方法 | ||
本發(fā)明公開了一種基于SARSA(λ)算法的定向天線自組網(wǎng)鄰居發(fā)現(xiàn)方法,包括如下步驟:步驟1:鄰居發(fā)現(xiàn)過程開始時,每個節(jié)點初始化自己的Q矩陣,隨機選擇初始狀態(tài)和初始動作;步驟2:節(jié)點進入傳輸模式和接收模式進行相應(yīng)步驟,采取不同步驟3:使用貪婪策略選擇下一個時隙的動作;步驟4:計算一步預(yù)測誤差;步驟5:對于所有狀態(tài)和動作,根據(jù)一步預(yù)測誤差更新Q矩陣;步驟6:進入下一個時隙,回到步驟2,直到鄰居發(fā)現(xiàn)過程結(jié)束后停止。本發(fā)明所公開的自組網(wǎng)鄰居發(fā)現(xiàn)方法,相比于完全隨機算法,能夠積累掃描中的經(jīng)驗,自適應(yīng)地找到存在未被發(fā)現(xiàn)鄰居的扇區(qū),從而加快鄰居的發(fā)現(xiàn)速度。
技術(shù)領(lǐng)域
本發(fā)明屬于無線網(wǎng)絡(luò)通信領(lǐng)域,特別涉及該領(lǐng)域中的一種基于SARSA(λ)算法的定向天線自組網(wǎng)鄰居發(fā)現(xiàn)方法。
背景技術(shù)
無線自組網(wǎng)的應(yīng)用場景越來越復(fù)雜,定向天線以其傳輸距離遠(yuǎn)和抗干擾能力強的優(yōu)勢被用于其中。但是由于其有限的波束寬度,給網(wǎng)絡(luò)中的鄰居發(fā)現(xiàn)過程帶來了極大的挑戰(zhàn)。而SARSA(λ)算法能夠根據(jù)過去在網(wǎng)絡(luò)中掃描的信息,不斷積累經(jīng)驗以更新策略,使得逐漸收斂到最佳策略,從而加快了鄰居發(fā)現(xiàn)的速度。
目前鄰居發(fā)現(xiàn)的算法大多數(shù)在全過程或者在部分過程使用全向天線,針對全過程使用定向天線的算法較少。其中主要分為隨機性算法和規(guī)劃性算法,隨機性算法效率較低,受不同網(wǎng)絡(luò)結(jié)構(gòu)影響很大,規(guī)劃性算法需要有中心節(jié)點做協(xié)調(diào),會使網(wǎng)絡(luò)變得更復(fù)雜。一些算法加入了GPS等位置輔助設(shè)備以提高效率,但會使節(jié)點的功耗增加,不適用于無線自組網(wǎng)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題就是提供一種基于SARSA(λ)算法的定向天線自組網(wǎng)鄰居發(fā)現(xiàn)方法,可在沒有任何先驗知識的情況下,使每個節(jié)點發(fā)現(xiàn)自己所有的鄰居,具有效率高、自適應(yīng)性強等特點。
本發(fā)明采用如下技術(shù)方案:
一種基于SARSA(λ)算法的定向天線自組網(wǎng)鄰居發(fā)現(xiàn)方法,其改進之處在于,包括如下步驟:
步驟1:鄰居發(fā)現(xiàn)過程開始時,每個節(jié)點初始化自己的Q矩陣,隨機選擇初始狀態(tài)s0和初始動作a0,其中s0指傳輸或接收模式,a0指天線波束方向;
步驟2:如果節(jié)點進入傳輸模式,在當(dāng)前時隙t內(nèi)發(fā)送HELLO消息;如果節(jié)點進入接收模式,接收機監(jiān)聽在當(dāng)前天線波束方向內(nèi)的消息,如果多個HELLO消息在此處發(fā)生了碰撞,獎勵是1;如果成功監(jiān)聽到了HELLO消息,那么成功發(fā)現(xiàn)了對方,獎勵是0;如果沒有監(jiān)聽到任何消息,獎勵是0;
步驟3:使用ε-貪婪策略選擇下一個時隙的動作at+1,at+1指天線波束方向,以ε-貪婪策略參數(shù)ε的概率隨機選擇動作,以1-ε的概率選擇Q矩陣中在下一個狀態(tài)下最大值所對應(yīng)的動作
A指動作空間,
步驟4:計算一步預(yù)測誤差δ,
δ=r+γQ(st+1,at+1)-Q(st,at) (3)
γ指折扣因子,
對于剛訪問過狀態(tài)的資格跡增大1,
e(st,at)=e(st,at)+1 (4)
步驟5:對于所有狀態(tài)和動作,根據(jù)一步預(yù)測誤差δ更新Q矩陣,
Q(s,a)=Q(s,a)+αδe(s,a) (5)
α指更新步長;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子科技集團公司第二十二研究所,未經(jīng)中國電子科技集團公司第二十二研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110193989.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04W 無線通信網(wǎng)絡(luò)
H04W8-00 網(wǎng)絡(luò)數(shù)據(jù)管理
H04W8-02 .移動性數(shù)據(jù)處理,例如,在HLR[歸屬位置寄存器]或VLR[訪問位置寄存器]上的注冊信息;在例如HLR,VLR或外部網(wǎng)絡(luò)之間的移動性數(shù)據(jù)傳送
H04W8-18 .用戶或訂戶數(shù)據(jù)的處理,例如,訂閱的業(yè)務(wù),用戶優(yōu)先權(quán)或用戶簡檔;用戶或訂戶數(shù)據(jù)的傳送
H04W8-22 .終端數(shù)據(jù)的處理或傳送,例如狀態(tài)或物理能力
H04W8-26 .用于移動性支持的網(wǎng)絡(luò)尋址或編號
H04W8-30 .網(wǎng)絡(luò)數(shù)據(jù)恢復(fù)
- 一種基于Sarsa學(xué)習(xí)的中心式動態(tài)路徑誘導(dǎo)方法
- 一種基于Sarsa的SDN數(shù)據(jù)中心擁塞控制方法
- 一種基于Sarsa算法的人群疏散仿真方法及裝置
- 用于仿真足球機器人控球的控制方法
- 異構(gòu)蜂窩網(wǎng)絡(luò)中基于Sarsa學(xué)習(xí)的基站休眠方法
- 一種新的節(jié)點價值混合更新方法
- 基于SARSA的核動力系統(tǒng)蒸汽發(fā)生器水位控制方法
- 一種基于SARSA的變循環(huán)航空發(fā)動機推力控制方法
- 基于SARSA(λ)算法的風(fēng)電-抽蓄聯(lián)合系統(tǒng)日隨機動態(tài)調(diào)度方法
- 基于強化學(xué)習(xí)Sarsa算法的水聲協(xié)作通信路由方法





