[發明專利]基于Q學習的分布式自適應QoS路由方法有效

申請號：	202110331147.9	申請日：	2021-03-26
公開（公告）號：	CN113098771B	公開（公告）日：	2022-06-14
發明（設計）人：	劉柯池;王振永;李德志;朱洪濤	申請（專利權）人：	哈爾濱工業大學
主分類號：	H04L45/302	分類號：	H04L45/302;H04L45/02;H04L45/00;H04L69/22
代理公司：	哈爾濱華夏松花江知識產權代理有限公司 23213	代理人：	岳昕
地址：	150001 黑龍***	國省代碼：	黑龍江;23
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于學習分布式自適應 qos 路由方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.基于Q學習的分布式自適應QoS路由方法，其特征在于：所述方法具體過程為：

步驟一、初始化各網絡節點策略表；

步驟二、某個網絡節點x接收到需要轉發的數據包時，執行步驟三和步驟四；

步驟三、網絡節點x根據包頭信息解析數據包，獲取目的節點d；

步驟四、網絡節點x向所有鄰居節點輪詢，獲取輪詢階段的獎賞信號；

步驟五、網絡節點x根據步驟四獲取的輪詢階段的獎賞信號和步驟三獲取的目的節點d更新自身策略表；

步驟六、網絡節點x根據步驟五更新后的策略表選擇路由器下一跳節點n，執行步驟七；

步驟七、網絡節點x向節點n轉發數據包；執行步驟八；

步驟八、網絡節點x與節點n通信，獲取轉發階段的獎賞信號；

步驟九、網絡節點x根據步驟八獲取的轉發階段的獎賞信號和步驟三獲取的目的節點d更新自身策略表；

所述步驟四中網絡節點x向所有鄰居節點輪詢，獲取輪詢階段的獎賞信號；具體過程為：

當前網絡節點x向某一鄰居節點j發出輪詢信號，鄰居節點j收到該信號后，向當前網絡節點x返回一個獎賞信號r_xj，重復該過程直到所有鄰居節點輪詢完畢；

所述獎賞信號r_xj具體求解過程為：

獎賞信號寫為：

其中D_xj、B_xj、L_xj分別為時延、帶寬、丟包率的歸一化獎賞函數，β、θ、為不同QoS需求所占的權重；

所述時延的歸一化獎賞函數D_xj的具體表達式為：

其中d_xj為節點間的時延，d_xi為節點間的時延，N(x)為節點x的鄰居節點集合，|N(x)|為節點x的鄰居節點數量；

所述帶寬的歸一化獎賞函數B_xj的具體表達式為：

其中，b_xj為節點間的帶寬，b_xi為節點間的帶寬；

所述丟包率的歸一化獎賞函數L_xj的具體表達式為：

L_xj＝-1+2％l_xj (4)

其中l_xj為節點間的丟包率；

所述步驟五中網絡節點x根據步驟四獲取的輪詢階段的獎賞信號和步驟三獲取的目的節點d更新自身策略表；具體過程為：

對每一個鄰居節點j，策略表更新的過程為：

其中N(j)指的是鄰居節點j的鄰居節點集合，η_e是輪詢階段的學習率；γ為獎賞衰減參數；Q_j(d,j′)表示節點j的策略表中，目的節點為d，節點j選擇的下一跳節點為j′的項；表示Q_j(d,j′)的最小值；Q_x(d,j)為節點x的策略表中，目的節點為d，節點x選擇的下一跳節點j的項；重復此過程直到所有鄰居節點對應的x策略表中的項更新完畢；

所述步驟八中網絡節點x與節點n通信，獲取轉發階段的獎賞信號；具體過程為：

當前網絡節點x向步驟六確定的轉發的節點n發出詢問信號，下一跳節點n收到該信號后，向網絡節點x返回一個獎賞信號，轉發階段的獎賞信號寫為：

r_xn＝q_x+d_xn (6)

其中q_x為數據包在節點x中的排隊時間，d_xn為節點x與n的傳輸時延，r_xn為轉發階段獎賞信號；

所述步驟九中網絡節點x根據步驟八獲取的轉發階段的獎賞信號和步驟三獲取的目的節點d更新自身策略表；具體過程為：

對策略表進行更新的過程可寫為：

其中η_t為轉發學習階段的學習率；N(n)為節點n的鄰居節點集合；γ為獎賞衰減參數；Q_n(d,n′)為節點n的策略表中，目的節點為d，節點n選擇的下一跳節點為n′的項；表示Q_n(d,n′)的最小值，Q_x(d,n)為節點x的策略表中，目標節點為d，節點x選擇的下一跳節點為n的項。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學，未經哈爾濱工業大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110331147.9/1.html，轉載請聲明來源鉆瓜專利網。