[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法及其存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110280940.0 | 申請(qǐng)日: | 2021-03-16 |
| 公開(kāi)(公告)號(hào): | CN113207147A | 公開(kāi)(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計(jì))人: | 張嬌;黃程遠(yuǎn);黃韜;劉韻潔 | 申請(qǐng)(專利權(quán))人: | 網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室;北京郵電大學(xué) |
| 主分類號(hào): | H04W28/02 | 分類號(hào): | H04W28/02;H04L12/801;H04L12/807;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 徐曉鷺 |
| 地址: | 210000 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) mptcp 擁塞 控制 方法 及其 存儲(chǔ) 介質(zhì) | ||
1.基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,所述方法包括以下步驟:
步驟1、提取網(wǎng)絡(luò)狀態(tài),計(jì)算得到網(wǎng)絡(luò)狀態(tài)的特征屬性值;
步驟2、對(duì)網(wǎng)絡(luò)應(yīng)用類型分類,根據(jù)網(wǎng)絡(luò)狀態(tài)的特征屬性值,匹配對(duì)應(yīng)的網(wǎng)絡(luò)環(huán)境類型,針對(duì)每一類網(wǎng)絡(luò)環(huán)境設(shè)計(jì)不同的獎(jiǎng)勵(lì)計(jì)算器,計(jì)算得到獎(jiǎng)勵(lì)值;
步驟3、AI擁塞窗口估計(jì)器通過(guò)獎(jiǎng)勵(lì)值以及網(wǎng)絡(luò)狀態(tài)的特征屬性值計(jì)算得到擁塞窗口的估計(jì)值;
步驟4、發(fā)送端根據(jù)擁塞窗口的估計(jì)值進(jìn)行調(diào)整。
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,所述步驟2具體為:
將神經(jīng)網(wǎng)絡(luò)部署在包含若干種不同網(wǎng)絡(luò)環(huán)境形成的仿真環(huán)境中;
讓神經(jīng)網(wǎng)絡(luò)與各網(wǎng)絡(luò)環(huán)境所對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)指導(dǎo)下與環(huán)境進(jìn)行隨機(jī)交互,并調(diào)整擁塞窗口以獲得最大化預(yù)期的累積獎(jiǎng)勵(lì)值,得到收斂的神經(jīng)網(wǎng)絡(luò),獎(jiǎng)勵(lì)值驅(qū)動(dòng)神經(jīng)網(wǎng)絡(luò)演化出不同的擁塞控制策略;
將訓(xùn)練成熟的神經(jīng)網(wǎng)絡(luò)部署在真實(shí)網(wǎng)絡(luò)環(huán)境內(nèi)指導(dǎo)數(shù)據(jù)傳輸。
3.根據(jù)權(quán)利要求2所述的基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,所述不同網(wǎng)絡(luò)環(huán)境包含以下幾種:
吞吐量密集型網(wǎng)絡(luò),延遲敏感型網(wǎng)絡(luò),恒比特率CBR型網(wǎng)絡(luò)以及子路徑之間的負(fù)載均衡型網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求3所述的基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,在吞吐量密集型網(wǎng)絡(luò)情況下,獎(jiǎng)勵(lì)函數(shù)為:
在式(3)中,為在時(shí)間片t之內(nèi)從各個(gè)子流得到的吞吐量平均值,為從各個(gè)子流得到的在第t個(gè)時(shí)間片內(nèi)的數(shù)據(jù)包丟失數(shù)量匯總而得平均值,即和其中α表示相應(yīng)度量的重要性,根據(jù)具體目標(biāo)進(jìn)行調(diào)整的超參數(shù);
表示子流i在時(shí)間片t之中獲得的吞吐量,而表示子流i在時(shí)間片t之中丟失的數(shù)據(jù)包的數(shù)量。
5.根據(jù)權(quán)利要求3所述的基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,在延遲敏感型網(wǎng)絡(luò)情況下,獎(jiǎng)勵(lì)函數(shù)為:
其中,分別為在時(shí)間片t之內(nèi)從各個(gè)子流得到的吞吐(x)、時(shí)延(d)和丟包(1)的匯總而得的平均值;β和τ為根據(jù)實(shí)際環(huán)境而進(jìn)行調(diào)整的超參數(shù)。
6.根據(jù)權(quán)利要求3所述的基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,在恒比特率CBR型網(wǎng)絡(luò)情況下,獎(jiǎng)勵(lì)函數(shù)為:
在式(5)中,為在時(shí)間片t之內(nèi)從各個(gè)子流得到的吞吐量平均值,表示子流i在時(shí)間片t之中獲得的吞吐量;gbw是所述恒比特率CBR型網(wǎng)絡(luò)需要的保證帶寬;sigmoid函數(shù)是經(jīng)典的階躍函數(shù);
η和μ為根據(jù)實(shí)際環(huán)境而進(jìn)行調(diào)整的超參數(shù),來(lái)量化用戶對(duì)不同網(wǎng)卡的偏好,通過(guò)調(diào)整η和μ的值來(lái)呈現(xiàn)不同的偏好。
7.根據(jù)權(quán)利要求3所述的基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,在子路徑之間的負(fù)載均衡型網(wǎng)絡(luò)情況下,獎(jiǎng)勵(lì)函數(shù)為:
在式(6)中,為在時(shí)間片t之內(nèi)從各個(gè)子流得到的吞吐量平均值,為從各個(gè)子流得到的在第t個(gè)時(shí)間片內(nèi)的數(shù)據(jù)包丟失數(shù)量匯總而得平均值,即和表示子流i在時(shí)間片t之中獲得的吞吐量,而表示子流i在時(shí)間片t之中丟失的數(shù)據(jù)包的數(shù)量。
8.根據(jù)權(quán)利要求1至7任一項(xiàng)所述的基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,采用p-greedy方法進(jìn)行決策:以(1-p)的概率執(zhí)行LIA算法,p的概率執(zhí)行隨機(jī)算法,p為進(jìn)行神經(jīng)網(wǎng)絡(luò)隨機(jī)探索的概率,(1-p)為以固定的LIA算法進(jìn)行探索的概率;
在學(xué)習(xí)初期,p值接近于0,后期p值增大。
9.根據(jù)權(quán)利要求8所述的基于深度強(qiáng)化學(xué)習(xí)的MPTCP擁塞控制方法,其特征在于,
在仿真環(huán)境中,擴(kuò)大仿真環(huán)境的動(dòng)態(tài)變化范圍,讓神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的過(guò)程中盡可能多地在不同的環(huán)境設(shè)置下都可以收斂。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中含有如權(quán)利要求1至8任一項(xiàng)所述的基于深度強(qiáng)化學(xué)習(xí)MPTCP擁塞控制方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室;北京郵電大學(xué),未經(jīng)網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室;北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110280940.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04W 無(wú)線通信網(wǎng)絡(luò)
H04W28-00 網(wǎng)絡(luò)業(yè)務(wù)量或資源管理
H04W28-02 .業(yè)務(wù)量管理,例如流量控制或擁塞控制
H04W28-16 .中央資源管理;資源協(xié)商,例如協(xié)商帶寬或QoS[服務(wù)質(zhì)量]
H04W28-18 ..協(xié)商無(wú)線通信參數(shù)
H04W28-24 ..協(xié)商SLA[業(yè)務(wù)等級(jí)協(xié)定];協(xié)商QoS[服務(wù)質(zhì)量]
H04W28-26 ..資源預(yù)留
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





