[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810105232.1 | 申請(qǐng)日: | 2018-02-02 |
| 公開(kāi)(公告)號(hào): | CN108401015B | 公開(kāi)(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計(jì))人: | 劉外喜;李進(jìn);王宇;楊釗;唐冬;彭凌西 | 申請(qǐng)(專利權(quán))人: | 廣州大學(xué) |
| 主分類號(hào): | H04L29/08 | 分類號(hào): | H04L29/08;H04L12/729;H04L12/727;H04L12/725;H04L12/721 |
| 代理公司: | 廣州市華學(xué)知識(shí)產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李斌;裘暉 |
| 地址: | 510006 廣東省廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 數(shù)據(jù)中心 網(wǎng)絡(luò) 路由 方法 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,其特征在于,包括下述步驟:
S1、為網(wǎng)絡(luò)劃分區(qū)域,基于社團(tuán)發(fā)現(xiàn)算法將全網(wǎng)劃分為多個(gè)社團(tuán),一個(gè)社團(tuán)作為一個(gè)區(qū)域,每個(gè)區(qū)域中節(jié)點(diǎn)介數(shù)最大的節(jié)點(diǎn)上部署一個(gè)SDN控制器負(fù)責(zé)管理該區(qū)域,各交換機(jī)節(jié)點(diǎn)與該SDN控制器相連,接收其下發(fā)的轉(zhuǎn)發(fā)規(guī)則;
S2、建立網(wǎng)絡(luò)的全局視圖,SDN控制器根據(jù)網(wǎng)絡(luò)拓?fù)洌⒐?jié)點(diǎn)的鄰接矩陣,節(jié)點(diǎn)之間鏈路的資源值為緩存與帶寬的復(fù)合資源,每個(gè)SDN控制器上部署一個(gè)代理agent;
S3、構(gòu)建面向路由的深度強(qiáng)化學(xué)習(xí)框架,深度強(qiáng)化學(xué)習(xí)框架包括強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)兩部分;一方面,代理agent通過(guò)強(qiáng)化學(xué)習(xí)與網(wǎng)絡(luò)進(jìn)行交互,包括基于INT技術(shù)對(duì)網(wǎng)絡(luò)進(jìn)行狀態(tài)的感知和獎(jiǎng)賞的反饋,最后完成動(dòng)作的下發(fā);另一方面,agent用深度學(xué)習(xí)算法近似表示強(qiáng)化學(xué)習(xí)中的狀態(tài)動(dòng)作值函數(shù),找到狀態(tài)空間S到動(dòng)作空間A的一個(gè)映射,即,agent與網(wǎng)絡(luò)經(jīng)過(guò)多次的交互后,找到實(shí)現(xiàn)路由優(yōu)化目標(biāo)的最優(yōu)動(dòng)作集;
所述強(qiáng)化學(xué)習(xí)包括下述三個(gè)要素:
(1)獎(jiǎng)賞reward
路由優(yōu)化目標(biāo)設(shè)定為以下性能的要求:在端到端時(shí)延滿足QoS下,網(wǎng)絡(luò)的整體吞吐量最大;那么獎(jiǎng)賞函數(shù)r如下:
其中,Tm(t)是節(jié)點(diǎn)m在t時(shí)刻的吞吐量,rN是一個(gè)常數(shù),rN0,d(t)是在t時(shí)刻網(wǎng)絡(luò)中各流完成時(shí)間的平均值,D是一個(gè)常數(shù),D0;d(t)<D表示端到端時(shí)延滿足QoS要求;由于流的報(bào)文轉(zhuǎn)發(fā)要經(jīng)過(guò)多跳,當(dāng)前動(dòng)作無(wú)法立刻獲取其被實(shí)施后目標(biāo)流的端到端時(shí)延,所以,觀察當(dāng)前其他已完成流的端到端時(shí)延d(t) 是否滿足QoS;
(2)動(dòng)作action
動(dòng)作action是節(jié)點(diǎn)選擇以及轉(zhuǎn)發(fā)規(guī)則,即,從節(jié)點(diǎn)鄰接矩陣?yán)锩孢x擇一個(gè)能夠到達(dá)目的地的節(jié)點(diǎn)集;該節(jié)點(diǎn)集可以唯一地確定多條從源到達(dá)目的地的路徑;
(3)狀態(tài)state
狀態(tài)state包括資源占用狀態(tài)+資源需求狀態(tài):資源占用狀態(tài)為網(wǎng)絡(luò)中各節(jié)點(diǎn)的資源的已使用情況,資源需求狀態(tài)為待轉(zhuǎn)發(fā)的流對(duì)資源的需求情況,它們都用圖形法來(lái)表達(dá);
S4、確定路由的路徑以及轉(zhuǎn)發(fā)規(guī)則,SDN控制器根據(jù)agent的動(dòng)作選擇結(jié)果確定路徑,并基于數(shù)據(jù)面可編程方法P4制定數(shù)據(jù)報(bào)、流、組流各種粒度的轉(zhuǎn)發(fā)規(guī)則,并下發(fā)到各個(gè)交換機(jī)去執(zhí)行。
2.根據(jù)權(quán)利要求1所述基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,其特征在于,步驟S1中,所有與區(qū)域外的通信都通過(guò)固定的有限個(gè)邊界節(jié)點(diǎn)進(jìn)行轉(zhuǎn)發(fā),各個(gè)區(qū)域的控制器互相連接,組成扁平式的分布式控制器網(wǎng)絡(luò),負(fù)責(zé)區(qū)域間通信的控制。
3.根據(jù)權(quán)利要求1所述基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,其特征在于,步驟S1中,所述社團(tuán)發(fā)現(xiàn)算法為最小割的譜聚類或Fast Girvan Newman算法。
4.根據(jù)權(quán)利要求1所述基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,其特征在于,所述資源占用狀態(tài)圖包括節(jié)點(diǎn)、節(jié)點(diǎn)的復(fù)合資源以及時(shí)間三個(gè)維度。
5.根據(jù)權(quán)利要求1所述基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,其特征在于,所述資源需求狀態(tài)圖包括時(shí)間、資源2個(gè)維度,資源表示流從源到目的地所走路徑要求的復(fù)合資源總和;只記錄前M個(gè)流的詳細(xì)的資源需求狀態(tài),而其他的流只記錄數(shù)量。
6.根據(jù)權(quán)利要求1所述基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,其特征在于,步驟S3中,所述深度學(xué)習(xí)旨在發(fā)現(xiàn)狀態(tài)與動(dòng)作之間的映射,基于已有公開(kāi)數(shù)據(jù)集,采用REINFORCE算法對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。
7.根據(jù)權(quán)利要求1所述基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,其特征在于,步驟S4中,所述確定路由的路徑是使用復(fù)合資源作為衡量路徑質(zhì)量的度量,所述流為五元組相同的一組數(shù)據(jù)報(bào),所述組流為具有某個(gè)相同特性的多個(gè)流組成的一組數(shù)據(jù)報(bào)。
8.根據(jù)權(quán)利要求1所述基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)路由方法,其特征在于,基于數(shù)據(jù)驅(qū)動(dòng)的思想,將流對(duì)性能的要求轉(zhuǎn)換表達(dá)為流對(duì)資源的需求,并且通過(guò)將資源的需求分解到多條路徑上來(lái)實(shí)現(xiàn)多路徑路由。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州大學(xué),未經(jīng)廣州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810105232.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





