[發明專利]基于強化學習的低時延網絡切片方法有效
| 申請號: | 202110334767.8 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113098714B | 公開(公告)日: | 2023-07-11 |
| 發明(設計)人: | 朱洪波;高健;朱曉榮 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | H04L41/0894 | 分類號: | H04L41/0894;H04L41/0895;H04L41/16;H04L41/40;H04L41/0896;H04L41/0823;H04L41/14 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 牛莉莉;周湛湛 |
| 地址: | 210012 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 低時延 網絡 切片 方法 | ||
1.一種基于深度強化學習的低時延網絡切片的路由和資源分配方法,其特征在于:包括以下步驟:
步驟1:首先構建物理網絡和服務功能鏈的數學模型,針對低時延的網絡切片的約束條件,對物理網絡中的每一條服務功能鏈進行建模,形成低時延網絡切片的數學模型;
其中,低時延網絡切片的數學模型建模過程如下:
把底層的物理網絡結構建模為有向圖G={N,E},其中N表示的是底層物理節點集合,底層的網絡節點集合通過N={n1,n2,..,n|N|}進行表示,nx表示的是物理節點集合中的第x個物理節點(x∈{1,2,...,|N|}),在底層的物理節點nx上都擁有計算、存儲資源分別為E表示的是連接任意兩個物理節點之間的鏈路集合,鏈路(nx,ny)∈E的鏈路帶寬資源大小為
對網絡中的服務功能鏈進行建模表示.在網絡中假設[0,T]時間內會產生K條低時延的服務功能鏈,分別可以表示為S1,S2,…,SK,那么每條服務功能鏈由|Si|(i∈{1,2,...,K})個VNF構成,每條服務功能鏈所需的帶寬資源大小為服務功能鏈Si的VNF集合可以表示為其中Sij表示的是第i條服務功能鏈的第j個VNF的實例,每個VNF所需要的計算、存儲資源分別為每條低時延業務的時延約束條件為Ti;
步驟2:對當前物理網絡場景下的服務功能鏈進行馬爾可夫模型構建,定義當前場景下的狀態、動作及獎勵值;服務功能鏈的馬爾可夫模型構建如下:
(1)狀態空間
狀態空間是對整個網絡中資源的和當前網絡正在處理的虛擬網絡功能的狀態的一種描述,定義為S(t)={C(t),M(t),B(t),V(t),e(t)};其中C(t)表示的是在t時刻所有節點所剩余的計算資源的向量,M(t)表示的是節點剩余的存儲資源的向量,其表達式為B(t)則表示的是節點之間鏈路剩余帶寬的向量,其表達式為如果兩個節點之間沒有連接的鏈路則始終保持為0;V(t)則表示的是在t時刻每個節點所映射的成功的虛擬網絡功能的向量表示的是在時刻t在物理節點nx上映射的虛擬網絡功能的向量,其表達式為定義為服務功能鏈Si,t時刻在節點nx的映射情況的向量表示在t時刻虛擬網絡功能Sij是否映射在節點nx上,則有且定義整個網絡中K條服務功能鏈狀態的一維矩陣其中如果表示服務功能鏈Si正在正常的映射運行,表示服務功能鏈Si在下一個時刻即將進行映射服務,若表示服務功能鏈Si還要繼續進行等待進行服務,若則表示服務功能鏈Si由于某種原因沒有進行映射成功,則表示該服務功能鏈進行了成功的路由和資源映射;
(2)動作空間
在進行下一個動作的節點映射選擇時,進行選擇的節點范圍為當前節點的所有的有邊直接進行相連的相鄰節點的集合,定義物理網絡中節點的nx的相鄰的節點的集合為nxNEI可以表示為映射在節點nx中的所有的VNF的下一跳的選擇只能是nxNEI中的節點進行選擇;動作空間是由所有節點當前所映射的VNF共同決定和構成的,定義A(t)為t時刻的動作空間,其中表示的是在節點nx上所映射的VNF的下一跳動作的集合;
定義在t時刻在節點nx上的VNF的動作集合為其表達式定義為其中表示VNF?Sij在t時刻映射到節點nx上,下一跳的節點選擇則會在nx的相鄰的節點集合中按照策略進行選擇映射,則表示的是選擇下一跳的結果,如果選擇nxNEI中的第m個相鄰節點則否則為0,因此有的表達式為
(3)獎勵值的設置
在[0,T]的時間內總共會隨機的產生總共K條低時延的服務功能鏈,假設服務功能鏈Si完成部署成功所獲得的獎勵值為獎勵值的是根據當前所有的正在進行服務功能鏈的映射狀態進行設定的,如果服務功能鏈Si在下一時刻全部映射成功完成,則獲得的獎勵值,如果是正在等待進行映射在下一時刻映射成功,獲取的獎勵值,如果在映射過程中出現服務功能鏈映射失敗,獲得的獎勵值為其他情況下的獎勵值為0;在狀態S(t)執行動作A(t)后獲得的立刻的獎勵的定義如下,其中Rc表示全部映射完成的獎勵值,Rw表示等待進行映射的服務功能鏈映射成功的獎勵值,Rf則表示映射失敗的獎勵值,下面給出了其對應的計算表達式:
R(S(t),A(t),S(t+1))=Rc+Rw-Rf????????(9)
其中表示如果滿足服務功能鏈狀態并且時值為1,否則為0;
其中表示如果滿足服務功能鏈狀態并且時值為1,否則為0;
其中如果滿足服務功能鏈狀態或者并且時值為1,否則為0;
(4)強化學習求解大狀態空間問題
使用深度強化學習來解決低時延業務場景下的網絡切片中的路由和資源分配的問題;
在時間戳t時刻獲得的獎勵值可以表示為Rt=R(S(t),A(t),S(t+1)),從當前時間戳開始到結束所獲得的累計折扣獎勵值表示為:
在表達式(10)中γ∈[0,1)是折扣因子;
定義深度強化學習在狀態S(t)采取的動作的策略為π(a|s)=P(A(t)=a|S(t)=s),在網絡切片的路由和資源分配的問題中,策略π表示的是當前映射的所有服務功能鏈中的下一個服務功能的路由映射和資源分配:為了評價制定的策略π(a|s)的好壞并且希望智能體在與環境交互過程中執行動作中獲得平均期望回報獎勵,因此定義值函數Qπ(s,a)=Eπ(Gt|S(t)=s,A(t)=a),通過相應的策略的調整來最大化值函數,獲取在低時延網絡切片業務場景下最優的路由和資源分配的策略,在進行動作的選擇過程中是采用的ε策略,以1-ε的概率選擇最優的策略,以ε的概率進行動作的隨機探索,這樣可以進行整個狀態空間的探索,其表達式如下:
深度強化學習是采用深度的Q值網絡來作為對值函數的逼近,深度強化學習利用深度神經網絡來近似參數化的值函數Qπ(s,a;θ),它將當前的狀態作為整個網絡的輸入,輸出當前狀態下每個動作下的狀態動作值函數,在進行神經網絡的訓練過程中對Q值的迭代公式如下所示:
在神經網絡進行訓練的過程中采用經驗池的機制,將(S(t),A(t),S(t+1),Rt)的四元組作為一個訓練樣本存放到經驗池中,用于對神經網絡的訓練,以更有效地利用以前的經驗;此外,使用經驗池的機制,使得數據更像是獨立且分布均勻的數據,以降低數據之間的相關性;
由于在進行Q值網絡的訓練過程中Q值的更新容易發生震蕩,呈現出不穩定的學習行為,因此使用了帶有target網絡的深度強化學習,可以提升算法的穩定性;
步驟3:提出基于強化學習的低時延網絡切片的路由和資源分配的算法,具體內容如下:
(1)初始化經驗池大小為D;
(2)初始化Q值神經網絡的權值為隨機值θ;
(3)目標值網絡神經網絡的權值為θ^;
(4)隨機生成網絡功能服務鏈加入到物理網絡進行映射;
(5)通過ε策略選擇動作,以ε的概率選擇隨機動作A(t),其他情況選擇
(6)執行動作A(t)獲取獎勵值Rt狀態轉換為下一個狀態S(t+1);
(7)將樣本(S(t),A(t),S(t+1),Rt)存入到經驗池;
(8)從經驗池中隨機選取樣本進行訓練;
(9)通過來計算梯度對Q值神經網絡進行訓練,更新參數θ;
(10)每隔C步使用Q值網絡的參數來更新目標值網絡的參數;
重復步驟(4)到步驟(10)進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110334767.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋁合金的制備方法
- 下一篇:一種專用于計算機機箱的可調節式打磨機構





