[發(fā)明專(zhuān)利]一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810105232.1 | 申請(qǐng)日: | 2018-02-02 |
| 公開(kāi)(公告)號(hào): | CN108401015B | 公開(kāi)(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計(jì))人: | 劉外喜;李進(jìn);王宇;楊釗;唐冬;彭凌西 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廣州大學(xué) |
| 主分類(lèi)號(hào): | H04L29/08 | 分類(lèi)號(hào): | H04L29/08;H04L12/729;H04L12/727;H04L12/725;H04L12/721 |
| 代理公司: | 廣州市華學(xué)知識(shí)產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李斌;裘暉 |
| 地址: | 510006 廣東省廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 數(shù)據(jù)中心 網(wǎng)絡(luò) 路由 方法 | ||
本發(fā)明公開(kāi)了一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,包括下述步驟:S1、為網(wǎng)絡(luò)劃分區(qū)域,將全網(wǎng)劃分為多個(gè)社團(tuán),一個(gè)社團(tuán)作為一個(gè)區(qū)域,每個(gè)區(qū)域中節(jié)點(diǎn)介數(shù)最大的節(jié)點(diǎn)上部署一個(gè)SDN控制器,并在其上部署代理agent;S2、建立網(wǎng)絡(luò)的全局視圖,SDN控制器建立節(jié)點(diǎn)的鄰接矩陣,節(jié)點(diǎn)之間鏈路的資源值為緩存與帶寬的復(fù)合資源;S3、構(gòu)建面向路由的深度強(qiáng)化學(xué)習(xí)框架;S4、確定路由的路徑以及轉(zhuǎn)發(fā)規(guī)則,SDN控制器根據(jù)agent的動(dòng)作選擇結(jié)果確定路徑。本發(fā)明基于數(shù)據(jù)驅(qū)動(dòng)的思想,將流對(duì)性能的要求轉(zhuǎn)換為流對(duì)網(wǎng)絡(luò)資源的要求;利用深度學(xué)習(xí)感知和表示高維度數(shù)據(jù)的能力發(fā)現(xiàn)資源的多維度特征表示,最終實(shí)現(xiàn)在SDN控制面為流優(yōu)化地分配網(wǎng)絡(luò)資源,實(shí)現(xiàn)自適應(yīng)的智能路由。
技術(shù)領(lǐng)域
本發(fā)明屬于深度學(xué)習(xí)的技術(shù)領(lǐng)域,涉及一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法。
背景技術(shù)
數(shù)據(jù)中心網(wǎng)絡(luò)(Data Center Network,DCN)在云計(jì)算基礎(chǔ)設(shè)施中具有關(guān)鍵地位。研究表明,網(wǎng)絡(luò)節(jié)點(diǎn)部署緩存可減少數(shù)據(jù)訪問(wèn)路徑的平均長(zhǎng)度并避免數(shù)據(jù)熱點(diǎn),提高網(wǎng)絡(luò)吞吐率。緩存成為了一種新的網(wǎng)絡(luò)資源后,DCN網(wǎng)絡(luò)環(huán)境展現(xiàn)出鏈路、緩存和計(jì)算等多資源并存的新特征;另外,DCN中鏈路密集。然而,傳統(tǒng)的傳輸與路由方法因?yàn)槿狈εc新特征的深度耦合在DCN中性能低。
同時(shí),面對(duì)多重性網(wǎng)絡(luò)業(yè)務(wù)請(qǐng)求和差異化的網(wǎng)絡(luò)資源優(yōu)化目標(biāo)及約束參數(shù),動(dòng)態(tài)路由決策已被證明是NP完全問(wèn)題。所以,在較大網(wǎng)絡(luò)規(guī)模中,網(wǎng)絡(luò)狀態(tài)、網(wǎng)絡(luò)特征、度量參數(shù)海量,雖然啟發(fā)式算法可獲得近似優(yōu)化路由,但不能滿足網(wǎng)絡(luò)的實(shí)時(shí)性要求。
深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)是人工智能領(lǐng)域的一個(gè)新的研究熱點(diǎn),它以一種通用的形式將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,并能夠通過(guò)端對(duì)端的學(xué)習(xí)方式實(shí)現(xiàn)從原始輸入到輸出的直接控制。深度強(qiáng)化學(xué)習(xí)有很多種,如基于值函數(shù)的DRL,基于策略梯度的DRL,基于搜索與監(jiān)督的DRL。同時(shí),基于SDN的數(shù)據(jù)中心網(wǎng)絡(luò)的優(yōu)點(diǎn)之一是控制面可全局視野集中地優(yōu)化網(wǎng)絡(luò)資源的部署。因此,如何在SDN控制面使用深度強(qiáng)化學(xué)習(xí)為流量?jī)?yōu)化地分配網(wǎng)絡(luò)資源,最終實(shí)現(xiàn)自適應(yīng)的智能路由,是本領(lǐng)域技術(shù)人員研究的方向之一。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,為流量?jī)?yōu)化地分配網(wǎng)絡(luò)資源,實(shí)現(xiàn)自適應(yīng)的智能路由。
為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
本發(fā)明一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,包括下述步驟:
S1、為網(wǎng)絡(luò)劃分區(qū)域,基于社團(tuán)發(fā)現(xiàn)算法將全網(wǎng)劃分為多個(gè)社團(tuán),一個(gè)社團(tuán)作為一個(gè)區(qū)域,每個(gè)區(qū)域中節(jié)點(diǎn)介數(shù)最大的節(jié)點(diǎn)上部署一個(gè)SDN控制器負(fù)責(zé)管理該區(qū)域,各交換機(jī)節(jié)點(diǎn)與該SDN控制器相連,接收其下發(fā)的轉(zhuǎn)發(fā)規(guī)則;
S2、建立網(wǎng)絡(luò)的全局視圖,SDN控制器根據(jù)網(wǎng)絡(luò)拓?fù)洌⒐?jié)點(diǎn)的鄰接矩陣,節(jié)點(diǎn)之間鏈路的資源值為緩存與帶寬的復(fù)合資源;
S3、構(gòu)建面向路由的深度強(qiáng)化學(xué)習(xí)框架,深度強(qiáng)化學(xué)習(xí)框架包括強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)兩部分;一方面,代理agent通過(guò)強(qiáng)化學(xué)習(xí)與網(wǎng)絡(luò)進(jìn)行交互,包括基于INT技術(shù)對(duì)網(wǎng)絡(luò)進(jìn)行狀態(tài)的感知和獎(jiǎng)賞的反饋,最后完成動(dòng)作的下發(fā);另一方面,agent用深度學(xué)習(xí)算法近似表示強(qiáng)化學(xué)習(xí)中的狀態(tài)動(dòng)作值函數(shù),找到狀態(tài)空間S到動(dòng)作空間A的一個(gè)映射,即,agent與網(wǎng)絡(luò)經(jīng)過(guò)多次的交互后,找到實(shí)現(xiàn)路由優(yōu)化目標(biāo)的最優(yōu)動(dòng)作集;
S4、確定路由的路徑以及轉(zhuǎn)發(fā)規(guī)則,SDN控制器根據(jù)agent的動(dòng)作選擇結(jié)果確定路徑,并基于數(shù)據(jù)面可編程方法P4制定數(shù)據(jù)報(bào)、流、組流各種粒度的轉(zhuǎn)發(fā)規(guī)則,并下發(fā)到各個(gè)交換機(jī)去執(zhí)行。
作為優(yōu)選的技術(shù)方案,步驟S1中,所有與區(qū)域外的通信都通過(guò)固定的有限個(gè)邊界節(jié)點(diǎn)進(jìn)行轉(zhuǎn)發(fā),各個(gè)區(qū)域的控制器互相連接,組成扁平式的分布式控制器網(wǎng)絡(luò),負(fù)責(zé)區(qū)域間通信的控制。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廣州大學(xué),未經(jīng)廣州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810105232.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





