[發明專利]一種基于深度強化學習的網絡資源調度方法及系統有效
| 申請號: | 202110485657.1 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113254197B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 何先燈;葉劍;權風光;易運暉;陳南;朱暢華 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/48;G06N3/045;G06N3/08 |
| 代理公司: | 西安長和專利代理有限公司 61227 | 代理人: | 黃偉洪 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 網絡資源 調度 方法 系統 | ||
1.一種基于深度強化學習的網絡資源調度方法,其特征在于,所述的基于深度強化學習的網絡資源調度方法,包括
步驟一,在智能調度平臺上初始化經驗回放緩存器,并設置其容量;
步驟二,對網絡資源調度策略利用隨機數初始化其動作-獎勵值函數訓練模型Q1,并以給定常數初始化其動作-獎勵值函數目標模型Q2;
步驟三,利用訓練樣本,對上述兩個模型Q1和Q2進行訓練,Q1模型負責和實際網絡環境進行交互,得到交互樣本;
步驟四,在學習階段時,獎勵值由Q2模型計算得到,然后用它和Q1模型的估計值進行比較得到新的Q1獎勵值并更新Q1模型;
步驟五,每當上述步驟三和步驟四訓練完成一定輪次的迭代后,Q1模型的參數就會同步給Q2模型,繼續進行下一階段的訓練學習;
步驟六,通過步驟三~步驟五過程,目標模型Q2一段時間內固定,減少模型波動性;
步驟七,在智能調度平臺上使用經過步驟二~步驟五訓練好的目標模型進行網絡資源調度以及通信數據的分發控制;
步驟八,智能調度平臺根據通信模塊反饋數據,不斷進行步驟二~步驟五訓練-學習的過程,根據實際網絡環境不斷自適應調整;
所述步驟八中,智能調度平臺與環境的交互為離散時間馬爾可夫決策過程模型;
在離散時間智能調度平臺與環境的接口中,在t時刻,依次會發生以下事件
1)智能調度平臺觀察狀態St∈S的環境,得到觀測結果Ot∈O,其中S代表狀態空間集合,O代表觀測空間集合;
2)智能調度平臺根據觀測決定動作At∈A,其中A是動作集合;
3)環境根據智能調度平臺的動作,給予智能平臺獎勵Rt∈R,并進入下一個狀態St+1,其中R代表獎勵空間的集合;
一個時間離散化的智能調度平臺和環境之間的交互用一下數學序列表示
S0,O0,A0,R1,S1,O1,A1,R2,S2,O2,A2... (2)
在上述基礎上,假設認為獎勵Rt+1和下一個狀態St+1僅僅依賴與當前的狀態St和動作At,而不依賴于更早的狀態和動作,定義在t,從狀態St=s和動作At=a跳轉到下一狀態St+1=s'和獎勵Rt+1=r的概率為
Pr[St+1=s',Rt+1=r|St=s,At=a] (3)
對于上述馬爾可夫決策過程,定義函數p:S×R×S×A→[0,1]為馬爾可夫決策過程的動力:
p(s',r|s,a)=Pr[St+1=s',Rt+1=r|St=s,At=a] (4)
利用動力的定義,推出其他導出量,
狀態轉移概率:
給定“狀態-動作”的期望獎勵:
給定“狀態-動作-下一個狀態”的期望獎勵:
所述在馬爾可夫決策過程中,定義策略為從狀態到動作的轉移概率,對于馬爾可夫決策過程,其策略為從狀態到動作的轉移概率,其策略π:S×A→[0,1]定義為
π(a|s)=Pr[At=a|St=s],s∈S,a∈A (8)
對于動作集為連續的情況,可以用概率分布來定義策略;
對于回報Gt的定義,在連續性的任務沒有終止時間,所以Gt會包括t時刻后的所有獎勵信息,如果對未來所有的獎勵簡單求和,會導致總和往往是無窮大,針對這個問題,引入折扣的概念,定義回報為
折扣因子γ決定了在最近的獎勵和未來的獎勵間進行折中,基于回報的定義,進一步定義價值函數;對于給定的策略π,定義價值函數;
所述價值函數為:
狀態價值函數:狀態價值函數vπ(s)表示從狀態s開始采用策略π的預期回報,
vπ(s)=Eπ[Gt|St=s] (10)
動作價值函數:動作價值函數qπ(s,a)表示在狀態s采取動作a后,采用策略π的預期回報,
qπ(s,a)=Eπ[Gt|St=s,At=a] (11)
最優策略和最優價值函數:對于一個動力,存在一個策略π*使得所有策略的回報都小于等于這個策略,此時這個策略π*被稱作最優策略;最有優價值函數具有一個重要的信息-Bellman最優方程,Bellman最優方程求解最優價值函數;
所述Bellman最優方程有以下兩個部分:
A、用最優動作價值函數表示最優狀態價值函數
vπ(s)=maxq*(s,a),s∈S (12)
B、用最優狀態價值函數表示最優動作價值函數
Q學習(Q-learning)是一種的基礎強化學習算法,它使用二維表格來記錄智能體的環境-動作-獎勵值的之間的映射關系,表格的行、列、單元格分別對應著環境狀態S、可執行動作A、當前環境狀態S下選擇動作A得到估計Q值;
當智能體需要根據當前環境狀態選擇動作,將計算所有動作的Q值,根據計算出來Q值選擇下一個執行動作,Q-learning中Q值更新表達式定義如公式(14)所示:
Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)-Q(St,At)] (14)
其中α∈(0,1],α表示學習率,值越大表示越重視當前訓練的結果;γ∈[0,1],γ是折扣因子表示對信息的學習程度,值越大表示越重視以往的經驗;
Q-learning采用表格形式來表示從環境獲取的狀態以及可選擇的動作,故又稱之為表格型強化學習,表格行列數有限;
對于環境狀態集合S、選擇動作集合A和值函數集合Q,存在S×A→Q這樣的映射關系,將求解值函數的問題轉化為監督學習形式;使用神經網絡來充當Q-learning的查詢表,將深度學習引入到強化學習中,從而開創了深度強化學習模型DQN理論;
在Q-learning中,通過當前時刻的回報和下一時刻的Q值估計進行更新,由于數據本身存在著不穩定性,每一輪迭代都可能產生一些波動,這些波動會立刻反映到下一個迭代的計算中,引入目標網絡DQN算法;
DQN算法使用目標神經網絡與評估神經網絡雙網絡架構,初始化時在原有的Q評估網絡基礎上,又搭建了結構相同的Q-target目標網絡,通過最小化誤差函數來更新神經網絡權重值參數w,DQN算法基于Q學習理論來定義Loss函數:
L(w)=E[(r+γmaxa'Qeval(s',a';w')-Qeval(s,a;w))2] (15)
在初始參數w0已知的條件下,由公式(15)有:
通過優化目標最小化Loss函數得到w1,類推最終實現參數w收斂:
沿著Loss函數對w的梯度反方向來更新w,就能有機會減小損失,因此利用隨機梯度下降法不斷更新神經網絡權重值w完成訓練過程,最終可得到最優價值函數:
其中,參數w更新公式為:
在DQN資源調度模型訓練學習過程中,評估網絡每次訓練后都更新神經網絡權重值w,它使用最新權重值w來評估當前狀態動作對應的值函數Q(s,a;w);目標網絡在評估網絡權重值w完成一定次數的更新后,將評估網絡的權重值w賦給目標網絡的權重值w-,接著進行下一批更新;目標網絡在沒有變化的一段時間內回報的估計值是相對固定的;強化學習通過內部智能體在外部環境交互過程中不斷試錯,通過最大化積累函數來實現最優決策,是一種無監督的機器學習方法;在通信網絡資源調度時,根據當前智能體對網絡狀態的觀測,為不同網絡業務流傳輸分配網絡帶寬資源也就是選擇行為,同時得到該行為的期望累計獎勵,為后續決策和行動的選擇提供依據,強化學習DQN算法消除樣本之間的相關性,使模型具有穩定的收斂性,引入了經驗回放機制,使用經驗庫T來學習之前的經歷實現經驗回放,學習當前經歷以及過去的經歷,并且對其他智能體的經歷進行學習,是一種離線學習法;在t時刻智能體與環境交互得到轉移樣本(st,at,rt,st+1)并存儲到經驗庫,當經過一定時間的交互過程后,經驗庫中存儲一定數量的樣本,然后隨機抽取一批樣本進行訓練;經驗回放可以消除轉移樣本時間的相關性,使得樣本更符合獨立同分布條件,減少參數更新的方差,加快收斂;
結合DQN深度強化學習算法的網絡資源調度機制需要明確環境的調度空間、調度選擇的動作空以及資源調度的獎勵函數;選擇合適的環境狀態空間對強化學習DQN算法非常重要;將網絡傳輸帶寬作為網絡狀態環境,通過通信模塊獲取當前用戶通信業務狀態,包括緊急通話業務、短消息通信業務、語音通信業務和多媒體通信業務,定義環境的狀態空間為:
S=[TB,EC,MC,VC,SC] (19)
其中TB表示實時網絡可用的帶寬資源,EC、MC、VC、SC分別是緊急通話、短消息通信、語音通信、多媒體通信請求占據傳輸帶寬;
對當前通信系統中網絡資源進行調度的決策動作空間可以表示為:
A=[EB,MB,VB,SB] (20)
其中EB、MB、VB、SB對應網絡資源調度模塊為緊急通信、短消息通信、語音通信、多媒體通信分配的網絡帶寬資源。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110485657.1/1.html,轉載請聲明來源鉆瓜專利網。





