[發明專利]基于強化學習的多徑TCP傳輸調度方法有效
| 申請號: | 201910077608.7 | 申請日: | 2019-01-26 |
| 公開(公告)號: | CN109547505B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 張棟;何斌杰;周政演;朱丹紅 | 申請(專利權)人: | 福州大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L12/26;G06N20/00;H04L12/709 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福州市閩*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 tcp 傳輸 調度 方法 | ||
1.一種基于強化學習的多徑TCP傳輸調度方法,其特征在于,包括構建強化學習模型階段、訓練強化學習模型階段、部署強化學習模型階段;構建強化學習模型階段,需要根據強化學習基礎模型和多徑TCP傳輸調度環境的需求確定四要素:智能體、環境狀態、行動、獎勵;訓練強化學習模型階段,將強化學習模型部署至多徑TCP運行環境中,具體即將強化學習模型部署在通信的發送端主機的多徑TCP層上,使用強化學習訓練算法對強化學習模型進行訓練;部署強化學習模型階段,按照訓練強化學習模型階段的部署的方案進行部署;該方法具體包括如下步驟:
步驟S1、確定在多徑TCP傳輸調度環境下強化學習模型的目標;
步驟S2、確定強化學習模型中智能體的組成部分;
步驟S3、確定強化學習模型中的環境狀態、行動、獎勵,以及相關計算反饋公式;
步驟S4、將強化學習模型部署至通信的發送端主機的多徑TCP層上,使用強化學習訓練算法進行訓練;
步驟S5、根據實際拓撲,將訓練完成的強化學習模型部署至多徑TCP的發送終端實際運行;
步驟S2中,所述強化學習模型中智能體的組成部分,包括:1)狀態感知器I,用于從環境W收集當前環境狀態信息s;其中,環境W,即多徑TCP傳輸終端;s由SACK包和RTT時延信息構成,因此,即環境狀態信息s可由(SACK,RTT)的二維數組表示,為了便于矩陣表示,把SACK包返回的目標TCP子流和連續SACK包數量作為組合量化,由編號1開始,具體編號數量q由組合的類別數決定,RTT以1ms的精度表示,并向下取整,RTT編號數量p由RTT的類別數決定;2)學習器L,其為三維矩陣M,x維、y維分別表示SACK和RTT組成狀態分量,z維表示可能的行動被選中概率,即可能的N值被選中的概率,z維度行動的數值即為N值,N為大于0的正整數,其數量k由訓練網絡中實際適用的N值類別數決定,因此矩陣M是一個q*p*k的矩陣;3)動作選擇器P,其根據當前環境狀態信息s,查詢矩陣M,選擇出對應的行動;
所述步驟S3的具體實現方式如下:
對于環境W,每當接受一個行動,就會產生一個新的環境狀態信息s',并返回一個獎勵r,r決定了如何對智能體的學習器L中的三維矩陣M中的行動概率進行調整,即對N值被選中概率進行調整,使得N值的選擇在每一種狀態下逐漸趨向合理;r的獎勵函數由公式(1)定義:
式中,Mb代表在當前環境狀態信息下以往最佳的數據包亂序度,Mp代表當前行動ap所產生的數據包亂序度,以10%作為調整比例;因此,當Mp大于Mb時,獎勵r是負數,相當于懲罰機制;當Mp小于Mb,獎勵r是正數,相當于獎勵機制;
r作用于學習器L的方式由公式(2)表示:
式中,V[x,y,z]表示一狀態下對應的一動作的選中概率值,SACKp,RTTp,ap表示當前的狀態和行動,aother表示除當前行動外的行動,一共有n個;當學習器L得到r值,首先學習器L會對當前的動作的選中概率作出程度為r的調整,然后對其余狀態都作出程度為的調整。
2.根據權利要求1所述的基于強化學習的多徑TCP傳輸調度方法,其特征在于,步驟S1中,多徑TCP傳輸由多條多徑TCP子流組成,在傳輸調度中傳輸調度策略需要根據傳輸情況識別需要預留的數據包傳輸量N,因此,強化學習模型的目標就是使得N值盡量合理,合理性的評價標準為多徑TCP傳輸的吞吐量和包亂序度。
3.根據權利要求1所述的基于強化學習的多徑TCP傳輸調度方法,其特征在于,所述SACK包是當接收終端發生亂序接收時,返回給發送終端的響應包,通過觀察SACK包返回的目標TCP子流和連續返回的SACK包數量可以判斷傳輸亂序情況和預留數據包傳輸量N值是偏大還是偏小;RTT反映了各TCP子流的鏈路質量情況。
4.根據權利要求1所述的基于強化學習的多徑TCP傳輸調度方法,其特征在于,步驟S4中,強化學習模型的部署,是在NS-3網絡實驗平臺上對強化學習模型進行部署,包括多徑TCP協議代碼,將強化學習模型部署在發送終端主機的多徑TCP協議層進行訓練,強化學習訓練算法則根據公式(1)、公式(2)進行設定;訓練的收斂原則為強化學習模型為多徑TCP傳輸做出的調度使得多徑TCP傳輸的吞吐率和包亂序度穩定在根據需求而預先設定的數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910077608.7/1.html,轉載請聲明來源鉆瓜專利網。





