[發明專利]一種基于強化學習的無線網絡接入點切換方法有效
| 申請號: | 202011334205.5 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112492656B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 雷建軍;劉昕 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | H04W36/00 | 分類號: | H04W36/00;H04W36/08;H04W36/16 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 無線網絡 接入 切換 方法 | ||
1.一種基于強化學習的無線網絡接入點切換方法,其特征在于,包括以下步驟:
S1、使用SDN控制器控制站點切換至不同的AP,收集站點與AP之間的RSSI;
S2、在當前動作調整周期,使用ε-貪婪策略選擇出站點要關聯的AP集合;
使用ε-貪婪策略選擇出站點要關聯的AP集合,ε-貪婪策略進行AP選擇動作所采用的公式包括:
其中,π(s|a)表示控制器以概率1-ε選擇當前最大化價值的動作,以概率ε隨機從所有動作中選擇一個動作;|A(s)|表示在s狀態下可選動作的數量;qπ(s,a)表示在策略π下的動作價值函數;
S3、控制器從AP集合中選擇出當前狀態下的最佳AP;
選擇AP的過程建模成馬爾科夫決策的過程,馬爾科夫決策過程的模型具體包括:
St={s1,s2,...,sM-1,sM}
A={a1,a2,...,aM-1,aM}
其中,M為AP的數量,控制器在t個時刻從網絡中收集的STA的狀態定義為St,站點與AP之間的RSSI被選做狀態,即s1表示站點與AP1之間的RSSI。A表示動作空間,即AP的集合;a1表示控制器選擇AP1最為最佳AP,站點將與當前關聯的AP斷開,然后與AP1進行關聯;
S4、控制器控制站點進行AP切換:與當前關聯的AP去關聯,并且與最佳AP進行關聯;
S5、當前動作調整周期結束后,根據系統的吞吐量以及公平性計算獎勵;
系統的性能指標的獎勵的計算方式包括:
R=ω1(Tsys_cur-Tsys_pre)+ω2Ti(1-σ)
其中,R表示獎勵,ω1和ω2為權重,Tsys_cur為當前的系統吞吐,Tsys_pre為切換之前的系統吞吐,Ti是移動站點STA當前關聯APi的吞吐,σ表示站點切換至新的AP后,所有站點的吞吐量公平,σ被定義為:
其中:
其中,N為APi關聯的站點數量減一(不包括STA),Tn,i表示與APi關聯的站點n的吞吐量,表示與APi所在的BSS(Basic Service Set,基本服務集)的平均吞吐量;
S6、根據當前動作調整周期系統的獎勵更新動作價值函數;
動作價值函數包括:初始的動作價值為q(s,a)=0,更新動作價值函數的計算公式包括:
q(s,a)←q(s,a)+α[U-q(s,a)]
U←R+γmaxa′∈A(s′)qπ(s′,a′)
其中,q(s,a)表示在s狀態采取動作a的價值;α為學習率,γ為折扣因子;R表示性能指標的獎勵;U為時序差分目標,表示預測的實際獎勵;qπ(s′,a′)表示使用策略π,在下一個狀態s′中選擇動作a′的價值;
S7、判斷是否滿足終止條件,終止條件為動作價值的估計值等于真實值,若不滿足終止條件,則進入下一個動作調整周期后返回步驟S2不斷優化最佳AP的選擇;若滿足終止條件,則終止流程;
一個動作調整周期指的是:站點從一個AP點切換到另一個AP點的完整過程。
2.根據權利要求1所述的一種基于強化學習的無線網絡接入點切換方法,其特征在于,AP切換過程包括以下過程:
S41、控制器收集網絡狀態信息RSSI后,對站點進行切換管理,選擇出最佳AP;
S42、控制器首先斷開STA當前的連接,然后控制站點與最佳AP進行關聯;
S43、站點與最佳AP認證后,完成關聯過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011334205.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種透明手卷煙紙的生產工藝
- 下一篇:一種可提高紙張防油性能的淀粉基復合物





