[發明專利]基于深度強化學習的聯邦學習客戶端智能選取方法及系統有效
| 申請號: | 202110449033.4 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN113191484B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 張堯學;鄧永恒;呂豐;任炬 | 申請(專利權)人: | 清華大學;中南大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 長沙朕揚知識產權代理事務所(普通合伙) 43213 | 代理人: | 何湘玲 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 聯邦 客戶端 智能 選取 方法 系統 | ||
1.一種基于深度強化學習的聯邦學習客戶端智能選取方法,應用于聯邦服務市場框架,所述聯邦服務市場框架包括一個以一定的預算招募客戶端完成聯邦學習任務的聯邦平臺和多個愿意參與聯邦學習并向聯邦平臺提交聯邦學習任務的候選客戶端;其特征在于,包括以下步驟:
聯邦平臺通過從聯邦服務市場環境中收集客戶端的狀態作為輸入,輸入到基于策略網絡的客戶端選擇智能體中,輸出客戶端選擇方案;聯邦平臺根據當前環境狀況以及所述客戶端選擇方案從多個所述候選客戶端中選取一組最優的客戶端以協同訓練聯邦學習模型,并將聯邦學習性能作為獎勵反饋給所述客戶端選擇智能體,以獎勵用于優化更新策略網絡;所述策略網絡通過強化學習方法離線訓練得到;
所述客戶端選擇智能體,為基于編碼器-解碼器結構的策略網絡,編碼器將客戶端狀態映射為中間向量表示,解碼器根據所述中間向量表示生成客戶端選擇方案;所述客戶端狀態包括數據大小、數據質量和價格。
2.根據權利要求1所述的基于深度強化學習的聯邦學習客戶端智能選取方法,其特征在于,所述策略網絡的強化學習模型,包括狀態、動作、獎勵和策略:
狀態:狀態s={x1,x2,…,xn}包含給定聯邦學習任務所有候選客戶端的特征,每個客戶端Ci的特征xi是一個三維向量,用xi={qi,di,bi}表示,其中qi和di分別是客戶端Ci的數據質量和用于訓練的樣本數量,bi是客戶端Ci完成該學習任務的價格;
動作:采用順序動作,即客戶端選擇代理通過采取一系列的動作一一做出客戶端選擇決策;一個單獨的動作只從一組最多N個候選客戶端中選出一個客戶端;
獎勵:將執行客戶端選擇操作后從聯邦服務市場觀察到的獎勵r作為訓練后損失函數值的減少率,即:
其中,F(w)是學習任務測試數據集上的初始全局損失函數值,F(w*)是經過選定客戶端的多輪協同訓練后達到的測試損失函數值;
策略:將客戶端選擇的一個可行動作a={a1,…,ai,…}定義為候選客戶端的一個子集,其中ai∈{C1,C2,…,Cn}且策略網絡為一個隨機的客戶端選擇策略π(a|s,B)用于在給定狀態s和學習預算B的情況下選擇一個可行動作a;訓練策略網絡的目標是最大化累計獎勵。
3.根據權利要求2所述的基于深度強化學習的聯邦學習客戶端智能選取方法,其特征在于,所述最大化累計獎勵,表示為:
其中r(a|s)是在狀態s執行動作a后的獎勵;
使用REINFORCE算法來優化J,使用梯度下降來不斷優化參數θ:
其中b(s)代表一個獨立于a的基準函數用于加速訓練過程;參數θ是編碼器和解碼器可學習參數的并集。
4.根據權利要求2所述的基于深度強化學習的聯邦學習客戶端智能選取方法,其特征在于,所述編碼器包括:
客戶端嵌入層首先通過線性投影把三維輸入特征xi轉化為初始的dh維嵌入向量其中Wx和bx為可學習參數;
然后,嵌入向量會經過L個注意力層更新,其中,每一個注意力層l∈{1,2,…,L}輸出嵌入向量每個注意力層包含一個MHA層和一個FF層,每層后面都添加了一個跳躍連接和批歸一化。
5.根據權利要求4所述的基于深度強化學習的聯邦學習客戶端智能選取方法,其特征在于,所述解碼器包括:
基于編碼器輸出的嵌入向量和解碼器在時間t′t時間輸出的客戶端選擇結果,解碼器在每個時間點t輸出一個選中的客戶端at直到學習預算用盡;解碼器的網絡包含一個多頭注意力層和一個單頭注意力層。
6.一種計算機系統,包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現上述權利要求1至5中任一所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;中南大學,未經清華大學;中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110449033.4/1.html,轉載請聲明來源鉆瓜專利網。





