[發明專利]基于深度強化學習和知識蒸餾的光網絡路由方法有效
| 申請號: | 202110721280.5 | 申請日: | 2021-06-28 |
| 公開(公告)號: | CN113660038B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 唐碧霞;黃岳彩;陳建穎;薛云;周衛星 | 申請(專利權)人: | 華南師范大學 |
| 主分類號: | H04B10/27 | 分類號: | H04B10/27;H04L45/00;H04L41/14;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510631 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 知識 蒸餾 網絡 路由 方法 | ||
1.基于深度強化學習和知識蒸餾的光網絡路由方法,其特征在于,包括以下步驟:
S1、給定第一流量模式,采用強化學習算法訓練教師模型;
教師模型是一個全連接神經網絡,教師模型的輸出層輸出的是對應輸入狀態s(t)下K個狀態-動作對(s(t),ak(t)),k∈{1,2,...,K}的Q值Q(s(t),ak(t);ΘT),k∈{1,2,...,K},其中,K表示新到達的流量請求的候選路徑總數,s(t)表示t時刻教師模型的輸入狀態,ak(t)表示t時刻狀態下從K條候選路徑中選擇第k條路徑的動作,ΘT表示教師模型訓練得到的參數;假設在一個光網絡拓撲環境下,給定一個第一流量模式,流量請求的源節點和目的節點在第一流量模式下隨機選取,然后教師模型通過深度強化學習智能體與光網絡環境交互進行訓練,具體如下:
將在第一流量模式下得到的t時刻的光網絡狀態snet(t)以及t時刻的流量請求狀態stra(t)組成一個L×(W+K)的第一流量模式下的輸入狀態矩陣s(t)=[snet(t),stra(t)]L×(W+K),其中光網絡狀態snet(t)是一個L×W的矩陣,矩陣中的元素Elw表示鏈路l上波長w的可用性,如果可用,則Elw為1,否則Elw為0;L為光網絡拓撲中鏈路的總數,W為鏈路中波長的總數;流量請求狀態stra(t)是一個L×K矩陣,矩陣中的元素Flk的定義如下表示:
S2、調用訓練好的教師模型,在第二流量模式下,生成學生模型的訓練數據;假設在一個光網絡拓撲環境下,在一個第二流量模式下,流量請求的源節點和目的節點在第二流量模式下隨機選取;
將在第二流量模式下得到的t時刻的光網絡狀態與t時刻的流量請求狀態組成第二流量模式下的輸入狀態矩陣輸入到步驟S1中得到的訓練好的教師模型中,訓練好的教師模型根據步驟S1中學得的策略經驗給出該輸入狀態下,每個動作對應的Q值這些Q值接下來將會用作學生模型訓練時的標簽數據;
S3、在步驟S2中的第二流量模式下,將教師模型生成的數據通過知識蒸餾對學生模型進行訓練,得到初步訓練的學生模型;具體如下:
根據步驟S2中得到的輸入狀態下的一組動作的Q值引入知識蒸餾的方法,學生模型通過學習教師模型的知識進行訓練,具體如下:
利用softmax將一組Q值轉換為概率分布qτ(sn(t);Θ),經過softmax變換之后,每個狀態-動作對的無界Q值被設置在0到1之間,但不改變其相對于其他狀態-動作對的相對排名,具體由以下的公式表示:
其中,fτ(·)是帶有溫度τ的softmax函數,τ>0,具體如下:
其中,Θ∈{ΘT,ΘS},ΘT和ΘS分別表示由教師模型和學生模型訓練得到的參數;
在分別得到教師模型和學生模型輸出的概率分布qτ(sn(t);ΘT)和qτ(sn(t);ΘS)之后,將qτ(sn(t);ΘT)和qτ(sn(t);ΘS)經過一個交叉熵函數H(·,·),然后通過最小化該交叉熵函數來擬合教師模型和學生模型的概率分布,得到初步訓練的學生模型;
初步訓練中,學生模型的損失函數表示為LKD(ΘS):
LKD(ΘS)=B(qτ(sn(t);ΘT);qτ(sn(t);ΘS));
其中,H(·,·)表示交叉熵函數,qτ(·;·)表示一組Q值經過softmax歸一化變換后的概率分布;
S4、對步驟S3中經過初步訓練的學生模型采用強化學習算法進行訓練,學生模型學得第二流量模式的路由策略,完成基于深度強化學習和知識蒸餾的光網絡路由。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南師范大學,未經華南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110721280.5/1.html,轉載請聲明來源鉆瓜專利網。





