[發明專利]一種基于SARSA(λ)算法的定向天線自組網鄰居發現方法在審
| 申請號: | 202110193989.2 | 申請日: | 2021-02-21 |
| 公開(公告)號: | CN113015152A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 郭蘭圖;唐懷玉;葛憲生;趙同明;趙亮;楊凱威;崔鵬程 | 申請(專利權)人: | 中國電子科技集團公司第二十二研究所 |
| 主分類號: | H04W8/00 | 分類號: | H04W8/00;G06F17/11;G06F17/16 |
| 代理公司: | 青島博雅知識產權代理事務所(普通合伙) 37317 | 代理人: | 封代臣 |
| 地址: | 453002 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 sarsa 算法 定向天線 組網 鄰居 發現 方法 | ||
1.一種基于SARSA(λ)算法的定向天線自組網鄰居發現方法,其特征在于,包括如下步驟:
步驟1:鄰居發現過程開始時,每個節點初始化自己的Q矩陣,隨機選擇初始狀態s0和初始動作a0,其中s0指傳輸或接收模式,a0指天線波束方向;
步驟2:如果節點進入傳輸模式,在當前時隙t內發送HELLO消息;如果節點進入接收模式,接收機監聽在當前天線波束方向內的消息,如果多個HELLO消息在此處發生了碰撞,獎勵是1;如果成功監聽到了HELLO消息,那么成功發現了對方,獎勵是0;如果沒有監聽到任何消息,獎勵是0;
步驟3:使用ε-貪婪策略選擇下一個時隙的動作at+1,at+1指天線波束方向,以ε-貪婪策略參數ε的概率隨機選擇動作,以1-ε的概率選擇Q矩陣中在下一個狀態下最大值所對應的動作
A指動作空間,
步驟4:計算一步預測誤差δ,
δ=r+γQ(st+1,at+1)-Q(st,at) (3)
γ指折扣因子,
對于剛訪問過狀態的資格跡增大1,
e(st,at)=e(st,at)+1 (4)
步驟5:對于所有狀態和動作,根據一步預測誤差δ更新Q矩陣,
Q(s,a)=Q(s,a)+αδe(s,a) (5)
α指更新步長;
每個狀態的資格跡以γλ的速率衰減,λ指衰減因子;
e(s,a)=γλe(s,a) (6)
步驟6:進入下一個時隙,回到步驟2,直到鄰居發現過程結束后停止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十二研究所,未經中國電子科技集團公司第二十二研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110193989.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防堵塞球閥
- 下一篇:一種深海網箱姿態實時建模系統





