[發明專利]一種跨域系統的協同路由方法及裝置在審
| 申請號: | 202210022533.4 | 申請日: | 2022-01-10 |
| 公開(公告)號: | CN114374638A | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 周旭;李琢;李泰新;任勇毛;覃毅芳 | 申請(專利權)人: | 之江實驗室;中國科學院計算機網絡信息中心 |
| 主分類號: | H04L45/00 | 分類號: | H04L45/00 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 311100 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 系統 協同 路由 方法 裝置 | ||
1.一種跨域系統的協同路由方法,其特征在于,所述方法包括:
獲取若干相互連接的跨域自治系統中每個自治系統的網絡狀態綜合參數,將所述網絡狀態綜合參數存儲在每個自治系統中;
在每個自治系統中搭建智能體,所述智能體與每個自治系統相互連接;
第i自治系統的用戶向第j自治系統發起服務請求,位于第i自治系統中的第i智能體和位于第j自治系統中的第j智能體,根據所述網絡狀態綜合參數與所述服務請求,通過多智能體強化學習算法生成協同路由策略;其中,i和j為大于0的自然數;
第j自治系統根據所述協同路由策略向所述第i自治系統的用戶返回所述服務請求的響應結果。
2.根據權利要求1所述的方法,其特征在于,所述生成協同路由策略包括:
第i智能體獲取第i自治系統發起的服務請求,生成服務標識;
所述第i智能體基于所述網絡狀態綜合參數,生成單個域內路由策略;
根據所述單個域內路由策略,所述第i智能體將所述服務請求和所述服務標識發送至所述第j智能體,由第j智能體根據所述服務標識獲取所述服務請求,將所述服務請求發送至第j自治系統。
3.根據權利要求2所述的方法,其特征在于,所述方法還包括:
所述請求從所述第i智能體發送到所述第j智能體中間要經過n個智能體;
其中,所述n個智能體中的第m個智能體獲取第m-1個智能體發送的請求,第m個智能體根據網絡狀態生成單個域內路由策略,根據所述單個域內路由策略將所述請求發送給下一個智能體,其中,n和m為大于0的自然數且m不大于n。
4.根據權利要求1所述的方法,其特征在于,所述多智能體強化學習算法包括:
將所述網絡狀態綜合參數輸入所述多智能體強化學習算法,初始化多智能體強化學習算法模型;其中,所述學習算法采用演員-評論員算法模型;
從所述網絡狀態綜合參數中獲取網絡狀態,初始化演員和評論員的參數;
多個智能體分別進行采樣,多個智能體中的單個智能體根據采樣結果執行單個路由決策并獲取所述單個智能體的獎勵信息,同時獲取下一個網絡狀態;其中,所述獎勵信息是跨域環境根據由多個智能體中每個智能體的路由決策組成的協同路由策略得到的獎勵值;
計算智能體的網絡誤差,更新網絡參數;
對更新后的網絡參數重新進行演員-評論員計算,直到所述獎勵值出現收斂,結束學習過程。
5.根據權利要求4所述的方法,其特征在于,所述計算智能體的網絡誤差,更新網絡參數根據如下公式進行:
φi”=λφi+(1-λ)φi'
式中,i表征第i個智能體,φ表征上一次路由決策的演員參數,φ'表征本次路由決策的演員參數,φ”表征即將得到的路由決策的演員參數,表征上一次路由決策的評論員參數,表征本次路由決策的評論員參數,表征即將得到的路由決策的評論員參數,λ表征試探參數。
6.一種跨域系統的協同路由裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取若干相互連接的跨域自治系統中每個自治系統的網絡狀態綜合參數,將所述網絡狀態綜合參數存儲在每個自治系統中;
建立模塊,用于在每個自治系統中搭建智能體,所述智能體與每個自治系統相互連接;
請求模塊,用于第i自治系統的用戶向第j自治系統發起服務請求,位于第i自治系統中的第i智能體和位于第j自治系統中的第j智能體,根據所述網絡狀態綜合參數與所述服務請求,通過多智能體強化學習算法生成協同路由策略;其中,i和j為大于0的自然數;
響應模塊,用于第j自治系統根據所述協同路由策略向所述第i自治系統的用戶返回所述服務請求的響應結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室;中國科學院計算機網絡信息中心,未經之江實驗室;中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210022533.4/1.html,轉載請聲明來源鉆瓜專利網。





