[發明專利]一種在聯邦學習場景下針對全局數據分布進行攻擊的方法在審
| 申請號: | 202211526827.7 | 申請日: | 2022-12-01 |
| 公開(公告)號: | CN116192424A | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 于東曉;張恒銘;謝珍真;王鵬;孫恩濤;杜超 | 申請(專利權)人: | 山東大學;上海新時達電氣股份有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06N20/00 |
| 代理公司: | 青島華慧澤專利代理事務所(普通合伙) 37247 | 代理人: | 付秀穎 |
| 地址: | 266200 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聯邦 學習 場景 針對 全局 數據 分布 進行 攻擊 方法 | ||
1.一種在聯邦學習場景下針對全局數據分布進行攻擊的方法,其特征在于,包括攻擊前的準備和在共享梯度的監督和引導下利用強化學習的整體攻擊過程;
攻擊前的準備是設置攻擊時候所需要的各類參數、環境、工具;
共享梯度的監督和引導下利用強化學習的整體攻擊過程是在共享梯度的監督和引導下,通過深度強化學習算法來調整惡意客戶本地數據的分布,最終推測出聯邦學習全局數據的分布情況。
2.根據權利要求1所述的一種在聯邦學習場景下針對全局數據分布進行攻擊的方法,其特征在于,在共享梯度的監督和引導下,智能體根據獎勵的變化情況,不斷學習如何選擇正確的動作,改變狀態,自動制定惡意客戶本地數據分布的調整策略,以此來促使惡意客戶的本地梯度和共享梯度的歐式距離越來越小,獎勵越來越大,一旦惡意客戶的本地梯度匹配共享梯度,環境返回的獎勵也會達到最大值,此時惡意客戶本地數據的分布情況就可以反應出聯邦學習全局數據的分布情況。
3.根據權利要求1所述的一種在聯邦學習場景下針對全局數據分布進行攻擊的方法,其特征在于,攻擊前的準備步驟如下,
步驟1:聯邦學習的中央服務器將當前的全局模型F(x;W)發送給參與訓練的客戶端,之后將聚合后的共享梯度也發送給參與訓練的客戶端;其中,x為參與訓練的客戶的訓練數據,W全局模型的參數權重;
步驟2:設計強化學習中的馬爾可夫決策過程,確定馬爾可夫決策過程包含的三個元素:狀態state、動作action、獎勵reward;
其中,狀態state:惡意客戶A本地數據的分布情況;動作action:調整惡意客戶A本地數據的分布,即增加惡意客戶A本地數據中某類數據的量或者減少某類數據的量,調整的范圍為[-n,+n],n為正整數;獎勵reward:對惡意客戶A的本地梯度和共享梯度間的歐式距離進行向前和向后傳播后得出的損失值loss取反;
步驟3:設置強化學習的環境,記作env,即設定共享梯度的監督和引導策略:
步驟4:分別構造強化學習中深度確定性策略梯度算法DDPG的策略網絡actornetwork:μ(s|θμ)和價值網絡critic?network:Q(s,α|θQ);
其中,s表示狀態state,α表示動作action,θμ和θQ分別為策略網絡actor?network和價值網絡critic?network的參數權重;
步驟5:構造DDPG算法:首先初始化四個網絡:當前策略網絡μ(s|θμ)、目標策略網絡μ′(s|θμ′)、當前價值網絡Q(s,α|θQ)、目標價值網絡Q′(s,α|θQ′);
其中,s表示狀態state,α表示動作action,θμ、θμ′、θQ、θQ′分別為當前策略網絡、目標策略網絡、當前價值網絡和目標價值網絡的參數權重,當前策略網絡和目標策略網絡用步驟4中構造的策略網絡actor?network初始化,當前價值網絡和目標價值網絡用步驟4中構造的價值網絡critic?network初始化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學;上海新時達電氣股份有限公司,未經山東大學;上海新時達電氣股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211526827.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新風預熱和設備散熱的熱回收系統
- 下一篇:一種模塊化納濾膜分離凈化設備





