[發明專利]一種基于歷史強化學習的車聯網負載均衡接入方法有效
| 申請號: | 201710537715.4 | 申請日: | 2017-07-04 |
| 公開(公告)號: | CN107509220B | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 蔣昌俊;李重;李德敏;任佳杰;齊誠嗣 | 申請(專利權)人: | 東華大學 |
| 主分類號: | H04W28/08 | 分類號: | H04W28/08;H04W48/06;H04W48/10;H04L29/08 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;吳小麗 |
| 地址: | 200050 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 歷史 強化 學習 聯網 負載 均衡 接入 方法 | ||
1.一種基于歷史強化學習的車聯網負載均衡接入方法,其特征在于,步驟為:
步驟1:首先,通過初始強化學習模塊獲得車輛的接入基站分配模式,所述接入基站分配模式隨著時間推移,作為經驗,不斷的積累于每個基站的接入模式積累庫中;
步驟2:經過設定時間的學習積累,令歷史強化學習模塊代替初始強化學習模塊持續在系統中駐留運行,當基站再次遇到網絡變化時,歷史強化學習模塊調用所述接入模式積累庫中的歷史記錄,自適應地學習出新的車輛接入分配模式;
步驟3:新的車輛接入分配模式在每個基站的接入模式積累庫中再次被記錄,形成一個自適應處理網絡動態變化的運行環,從而在動態變化的車聯網環境中,保證車輛接入的網絡負載均衡;
所述初始強化學習模塊依據資源供求差來計算接入基站的價格,并以此來得出決策值;通過與環境的不斷交互、學習、接收獎勵反饋,來強化迭代出合適的接入決策;并以車輛號、基站號、供求價格、接入標識符、接入車輛的可達速率來存儲接入決策;
所述歷史強化學習模塊,在初始強化學習模塊運行設定時間并有經驗積累后,直接利用積累的歷史經驗,學習相似性,發掘接入特征,并按接入特征學得匹配的車輛接入分配模式。
2.如權利要求1所述的一種基于歷史強化學習的車聯網負載均衡接入方法,其特征在于:所述初始強化學習模塊,在系統運行一開始,通過基于價格和獎勵的動態迭代調整網絡負載均衡,得出接入基站分配模式。
3.如權利要求1所述的一種基于歷史強化學習的車聯網負載均衡接入方法,其特征在于:所述初始強化學習模塊的具體流程如下:
步驟1:定義基站的編號/標號為j,車輛的編號/標號為i,每個基站j,根據當前其所能提供的資源Kj(t)和需要接入基站的車輛所需求的資源Dj(t),計算出每個基站當前的價格μj(t)=Dj(t)-Kj(t);
步驟2:每個基站計算一個決策值dij(t),決策值為當前車輛i連接基站j的可達速率cij(t)與價格μj(t)的差值;每個基站將決策值廣播至所有車輛;
步驟3:每輛車選擇最佳決策值argmaxjdij(t),即選出一個基站,并把車輛根據最佳決策值argmaxjdij(t)決定將要連接的基站通知到該基站;
步驟4:基于步驟3,每個基站可收集到想與之接入的車輛集合,由此計算該基站所能獲得的即刻獎勵rj(t),即刻獎勵定義為:所有用戶的服務速率與平均服務速率偏差的倒數;
步驟5:根據步驟4,每個基站計算長期平均累計獎勵反饋Qj(t);
步驟6:每個基站調整價格值,調整依據如下:
如果當前基站j的即刻獎勵rj(t)高于所有基站的平均即刻獎勵,那么保持價格不變,即μj(t+1)=μj(t);
否則,如果該基站所能提供的平均整體服務速率高于網絡平均水平,則降低價格值為μj(t+1)=(1-δ(t))·μj(t);其中,δ(t)∈[0,1)是一個動態步長;如果該基站所能提供的平均整體服務速率低于網絡平均水平,則將價格值增加為μj(t+1)=(1+δ(t))·μj(t);
步驟7:當|Qj(t)-Qj(t-1)|∈,∈為設定的閾值,即完成收斂,迭代結束;基站根據在步驟4中所獲得的想與之接入的車輛,向這些車輛發出接入許可的通知;否則,回到步驟1繼續迭代直至收斂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710537715.4/1.html,轉載請聲明來源鉆瓜專利網。





