[發明專利]基于深度強化學習和知識蒸餾的光網絡路由方法有效
| 申請號: | 202110721280.5 | 申請日: | 2021-06-28 |
| 公開(公告)號: | CN113660038B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 唐碧霞;黃岳彩;陳建穎;薛云;周衛星 | 申請(專利權)人: | 華南師范大學 |
| 主分類號: | H04B10/27 | 分類號: | H04B10/27;H04L45/00;H04L41/14;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510631 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 知識 蒸餾 網絡 路由 方法 | ||
本發明公開了基于深度強化學習和知識蒸餾的光網絡路由方法。所述方法包括以下步驟:給定第一流量模式,采用強化學習算法訓練教師模型;調用訓練好的教師模型,在第二流量模式下,生成學生模型的訓練數據;在第二流量模式下,將教師模型生成的數據通過知識蒸餾對學生模型進行訓練,得到初步訓練的學生模型;對經過初步訓練的學生模型采用強化學習算法進行訓練,學生模型學得第二流量模式的路由策略,完成基于深度強化學習和知識蒸餾的光網絡路由。本發明通過利用知識蒸餾,把在一個流量模式下訓練得到的模型知識傳遞給在另一個流量模式下訓練的模型,使后者模型在訓練過程中得到了額外的、有用的知識。
技術領域
本發明屬于強化學習在光網絡路由分配中應用的領域,具體涉及一種基于深度強化學習和知識蒸餾的光網絡路由方法。
背景技術
隨著互聯網技術的發展,人們對通信的需求不斷增長,面對不斷增長的流量和各種服務質量需求,如何做到合理地分配網絡資源成為一個重要的研究難題。為流量請求選擇最優的路徑以及最佳的波長分配方案,可以降低網絡的阻塞率,提高光網絡的利用率。
傳統的光網絡路由問題方法(Zang,Hui,Jason P.Jue,and BiswanathMukherjee.A review of routing and wavelength assignment approaches forwavelength-routed optical WDM networks.Optical networks magazine 1.1(2000):47-60.)一般采用啟發式的分配策略,這些啟發式的策略大都是基于研究者的認知,在少部分信息基礎上制定一些分配的規則。例如考慮路徑距離,分配最短的路徑從而盡可能占用最少的網絡資源;或者考慮繁忙程度,分配最繁忙的波長從而使留下空閑的波長支持長距離的通信等。這類的方法的局限在于無法考慮影響光網絡性能的眾多因素,難以普遍性突破性地改善網絡資源分配的性能。
目前,深度強化學習(DRL)在自我學習上表現卓越,有很多工作將強化學習應用于解決光網絡路由問題。將光網絡路由分配建模成一個馬爾可夫決策過程(MDP),因此,可以利用建立在馬爾可夫決策過程上的強化學習(RL)去進行決策的學習和優化。強化學習是機器學習的一個分支,自從Alpha Go在圍棋比賽中戰勝人類冠軍棋手,強化學習,尤其是深度強化學習,得到了廣泛關注和研究。深度強化學習是深度學習與強化學習相結合的產物,它集成了深度學習在視覺等感知問題上強大的理解力,以及強化學習的決策能力,實現了端到端學習。深度強化學習適合用在路由資源分配這一馬爾可夫決策過程中,它通過智能體不斷與網絡環境交互,不斷地試錯,從而尋找越來越好的路由資源分配策略。它可以學習到不為人類所理解的聯系,并且通過合理的反饋和足夠的訓練,達到超越人類的水平。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南師范大學,未經華南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110721280.5/2.html,轉載請聲明來源鉆瓜專利網。





