[發明專利]基于值分解網絡和多智能體的半分布式協作存儲方法有效
| 申請號: | 202111058748.3 | 申請日: | 2021-09-09 |
| 公開(公告)號: | CN113779302B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 陳由甲;蔡粵楷;鄭海峰;胡錦松 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F16/71 | 分類號: | G06F16/71;G06N3/08;H04L67/1097;H04W24/06;H04W28/16 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 丘鴻超;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分解 網絡 智能 分布式 協作 存儲 方法 | ||
1.一種基于值分解網絡和多智能體強化學習的半分布式協作存儲方法,其特征在于,實現過程包括以下步驟:
步驟S1:構建基于無線網絡傳輸的多設備協作的半分布式協作存儲的無線網絡模型,包括匯聚節點和各無線服務節點,定義基于值分解網絡與多智能體深度強化學習的智能體狀態空間和動作空間,聯合狀態空間和動作空間,以及基于優化目標設計的獎勵函數,以最大限度地提高無線網絡服務質量和減少存儲內容的訪問時延;
步驟S2:在匯聚節點中收集和分析關于各個無線服務節點的信息,通過構建值分解網絡模型協調各個無線服務節點的協作,即每個無線服務節點的動作價值函數作為值分解網絡的輸入,輸出為整個系統的全局動作價值函數以及全局策略更新參數,并將結果反饋到整個半分布式系統中,包括回饋更新參數給各個無線服務節點以更新單個無線服務節點的策略,以提升無線邊緣存儲的協作性能和收斂速度;
步驟S1具體包括以下步驟:
步驟S11:定義用戶集、用戶集歸屬于無線服務節點的情況、用戶請求變量、無線服務節點存儲變量、文件集合、質量變量、視頻層集合和無線服務節點集,以及本地命中,協作命中和從服務器下載的單位時延,以及了用戶請求質量和服務質量變量;
步驟S12:構建存儲模型的性能指標,包括視頻接入時延和用戶體驗得分,基于這兩個目標優化問題構建最終優化目標,即獎勵函數;并定義用戶請求變量、用戶請求質量以及無線服務節點存儲變量為狀態空間,下一時刻的無線服務節點存儲變量和用戶服務質量為動作空間;
步驟S13:利用DuelingDQN網絡來進行狀態和動作的擬合,DuelingDQN網絡將神經網絡的分支拆分成狀態值分支和優勢動作分支,所述狀態值分支用于對當前無線網絡狀態估值,所述優勢動作分支用于對每個動作進行估值;結合狀態值和優勢值評估每個動作的性能表現;
步驟S11具體為:采用{1..i..I}表示的用戶集,Uj表示歸屬于無線服務節點j的用戶集,用戶請求變量λiv和無線服務節點存儲變量δjvl,文件集合{1..v..V},質量變量K,視頻層集合{1..l..L},無線服務節點集{1..j..J};采用單位接入時延d0,djj',dj分別表示本地命中,協作命中和從服務器下載的單位時延;以及定義用戶請求質量kiv和服務質量變量
步驟S12當中:構建存儲模型的性能指標,包括視頻接入時延D和用戶體驗得分M如下:
其中c1取0.16,c2取0.66,是質量評價系數;
并基于這兩個目標優化問題構建最終優化目標,也就是獎勵函數,η是權重系數,用來調整接入時延和用戶體驗得分的權重;
步驟S13當中,Dueling?DQN網絡的估值算子q(s,a;θ)對于目標網絡和評估網絡分為qej,qgj
步驟S2具體包括以下步驟:
步驟S21:在匯聚節點中引入值分解網絡,所述匯聚節點首先收集所有智能體的狀態和獎勵構建聯合狀態和聯合動作并從中計算出整個系統的獎勵值;并引入經驗回放庫,用于存放含有四個元素(S(t),A(t),r(t),s(t+1))的樣本,每個樣本從智能體的Dueling?DQN網絡中計算出各自的動作價值函數q(s,a;θ),最后利用值分解網絡計算整個系統的全局動作價值函數和
步驟S22:根據步驟S21計算出的整個系統的全局動作價值函數,集合獎勵函數構建一個損失函數以計算全局策略更新參數,訓練得到的全局策略更新參數反向傳遞回無線服務節點群內的各個無線服務節點,以便于其針對自身的神經網絡用梯度更新方法進行更新,得到更好的策略;
采用維度分解機制嵌入到DuelingDQN中,以降低決策的復雜度并提高無線服務的性能:
將DuelingDQN網絡所輸出的動作按照實際物理意義的維度進行分解,即,將動作分解為三個維度,分別是:存儲什么類型的視頻δjv,存儲什么視頻層δjl,以及為用戶服務什么質量每個維度上的動作用一個單獨的神經網絡分支來表示,所有動作在自己的維度內單獨選擇,互不影響;
維度分解機制嵌入之后,動作價值函數的計算方法為:在Dueling?DQN網絡中按照維度來計算,即同時也更新了匯聚節點全局動作價值函數的計算,即和
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111058748.3/1.html,轉載請聲明來源鉆瓜專利網。





