[發明專利]基于博弈的Q學習競爭窗口調整方法、系統及介質有效
| 申請號: | 202011620219.3 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112637965B | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 俞暉;毛中杰;王政 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | H04W74/08 | 分類號: | H04W74/08 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 博弈 學習 競爭 窗口 調整 方法 系統 介質 | ||
1.一種基于博弈的Q學習競爭窗口調整方法,其特征在于,包括:
步驟1:初始化網絡節點設置,包括通信協議、網絡拓撲、業務到達模型和物理層標準,開始通信后網絡通過廣播路由信息的方式,進行自組網并建立路由表,初始狀態下,節點按照默認競爭窗口大小進行退避,此后按照Q學習算法輸出的動作調整競爭窗口大小進行退避;
步驟2:全網節點通過路由表獲知一跳鄰居節點個數,并通過RTS/CTS信令廣播至鄰居節點,同時節點收到其鄰居節點廣播的RTS/CTS信息,獲知并計算得出其鄰居節點的平均鄰居節點個數,各節點通過查詢緩存區待發送的業務統計出單位時間內的業務負載大小,求出相應的負載因子;
步驟3:計算節點在網絡中的權重大小,并進行廣播,節點通過一跳范圍內最大權重值和最小權重值計算出網絡差異性指標,然后根據網路差異性指標進行博弈;
步驟4:若網絡差異性大于預設閾值,則采取均衡退避策略,網絡中權重最大的節點在強化學習中采用較小的競爭窗口狀態集合,其他節點在強化學習中采用較大的競爭窗口狀態集合;否則采用默認退避策略,網絡中所有的節點采取相同的競爭窗口狀態集合;
步驟5:網絡中各節點按照步驟4產生的競爭窗口狀態集合進行Q學習,輸出最優競爭窗口區間,并依此進行通信;
步驟6:網絡拓撲結構發生改變或業務負載產生較大波動后,重復執行步驟2-5。
2.根據權利要求1所述的基于博弈的Q學習競爭窗口調整方法,其特征在于,通過查詢路由表和統計流量的方式,確認節點在網絡中的重要性,對于任意節點k,其通過路由表查詢獲取本節點的一跳鄰居節點個數Nk,通過RTS/CTS附加位信息獲取一跳通信范圍內鄰居節點的鄰居節點個數∑iNi,并計算出鄰居節點的平均鄰居個數對于任意節點k,統計當前時間段內的業務負載大小Lk,根據業務負載Lk對信道傳輸速率Rk的相對大小劃分節點是否為重業務節點,以負載因子lk表示:
根據負載因子lk、鄰居節點數個數Nk和鄰居節點的平均鄰居個數計算權重:
其中,b為常數,為保證邊緣節點在網絡中的基本權重。
3.根據權利要求1所述的基于博弈的Q學習競爭窗口調整方法,其特征在于,對一跳通信范圍內權重最大的節點,通過RTS/CTS控制信令廣播權重yi,獲知一跳范圍內最小的節點權重為計算差異指標根據G的取值確定網絡節點差異性的大小;
若G值超過預設閾值,則判定網絡差異性大,采用均衡退避策略:權重最大的節點采用較小的競爭窗口區間,即相同右值下更小的左值;權重最小的節點采用較大的競爭窗口區間,即相同右值下更大的左值。
4.根據權利要求1所述的基于博弈的Q學習競爭窗口調整方法,其特征在于,以節點作為智能體,退避算法中競爭窗口的區間左值作為環境狀態集合,即CWmin=2s-1,以單位時間內競爭窗口左值CWmin的取值作為動作集合以網絡傳輸成功率和平均時延為優化目標,進行學習,其更新公式為:
Q(S,A)←Q(S,A)+α[r+γmaxaQ(S',a)-Q(S,A)]
其中,γ為折扣因子,表示過去采用的動作對當前動作的影響大小;r為獎勵,表示在當前狀態S下采取動作A所獲得的由傳輸成功率和平均時延指標評價的獎勵函數大小;α為收斂因子,是影響收斂速度的主要因子;S'為過去狀態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011620219.3/1.html,轉載請聲明來源鉆瓜專利網。





