[發明專利]一種基于深度強化學習的軟件定義網絡路由方法在審
| 申請號: | 202211470562.3 | 申請日: | 2022-11-23 |
| 公開(公告)號: | CN116599885A | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 蔣昌俊;閆春鋼;丁志軍;王俊麗;張亞英;柯宇 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | H04L45/00 | 分類號: | H04L45/00;H04L47/80;H04L47/12;H04L41/14;H04L41/40 |
| 代理公司: | 南京禹為知識產權代理事務所(特殊普通合伙) 32272 | 代理人: | 褚曉英 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 軟件 定義 網絡 路由 方法 | ||
1.一種基于深度強化學習的軟件定義網絡路由方法,其特征在于,包括:
基于網絡實際運行參數,根據大流優先調度的原則和任務目標分別對網絡流信息進行狀態設計和動作設計;
基于軟件定義網絡SDN控制器獲取的網絡帶寬數據構建網絡擁塞模型;
根據所述網絡擁塞模型和網絡QoS數據進行獎勵設計,并結合所述狀態設計和所述動作設計訓練強化學習模型;
所述強化學習模型基于實際網絡流的狀態值實現路由的選擇。
2.如權利要求1所述的基于深度強化學習的軟件定義網絡路由方法,其特征在于,所述狀態設計包括:基于大流優先調度原則,為網絡中每個網絡流設計一個狀態;
所述狀態設計可表示為:
si=(src,dst,seq)
其中,src和dst分別為流的源節點和目標節點,seq為該流在所有流中的相對大小。
3.如權利要求2所述的基于深度強化學習的軟件定義網絡路由方法,其特征在于,動作設計包括:基于任務目標為每個網絡流選擇一條路徑,通過Dijkstra算法預先為每條流計算若干條路徑,從備選路徑中選擇一條路徑輸出。
4.如權利要求3所述的基于深度強化學習的軟件定義網絡路由方法,其特征在于,根據網絡帶寬數據構建網絡擁塞模型包括:
將網絡擁塞模型定義為:
{θmax,(linkij,αij,βij,γij)}
其中,θmax為擁塞閾值,linkij為網絡中任意一條鏈路,αij為鏈路利用率,βij為鏈路瞬時流量,γij為間接擁塞度,i為第一交換機,j為第二交換機。
5.如權利要求4所述的基于深度強化學習的軟件定義網絡路由方法,其特征在于,還包括:基于網絡帶寬數據計算網絡中鏈路的鏈路利用率以及鏈路瞬時流量;
所述鏈路利用率為已有帶寬和鏈路帶寬的比值;
所述鏈路瞬時流量為當前時刻鏈路已用帶寬和上一時刻鏈路已用帶寬的差值除以間隔時間。
6.如權利要求5所述的基于深度強化學習的軟件定義網絡路由方法,其特征在于,根據所述鏈路利用率和鏈路瞬時流量計算鏈路的間接擁塞度,包括:
目標鏈路間接擁塞度計算可表示為兩個端點對應鄰邊的間接擁塞度之和;
所述對應鄰邊的間接擁塞度為該條邊的鏈路利用率、鏈路瞬時流量和該條邊的鄰邊的間接擁塞度之和;
通過廣度優先搜索對目標鏈路進行遞歸計算得到所述對應鄰邊的最終間接擁塞度的值。
7.如權利要求4、5、6所述的任意一項基于深度強化學習的軟件定義網絡路由方法,其特征在于,根據所述網絡擁塞模型和網絡QoS數據進行獎勵設計,包括:
當動作路徑的QoS指標滿足約束時,則進行歸一化處理得到對應的獎勵值,所述獎勵值為帶寬獎勵,延時獎勵,丟包率獎勵;
當動作路徑的QoS指標不滿足約束時,則得到懲罰值;
基于網絡擁塞模型,通過鏈路利用率和鏈路瞬時流量的流量值對鏈路擁塞的影響計算得到擁塞獎勵;
所述動作對應的獎勵值為所述動作路徑的帶寬獎勵,延時獎勵,丟包率獎勵和擁塞獎勵之和。
8.如權利要求7所述的基于深度強化學習的軟件定義網絡路由方法,其特征在于,還包括:
所述獎勵值表示為:
其中,r_bwdpath為帶寬獎勵,r_delaypath為延時獎勵,r_losspath為丟包率獎勵,r_congestpath為擁塞獎勵。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211470562.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子裝置組合及其擴充組件
- 下一篇:具有卡裝結構的平衡重





