[發明專利]一種特定指標下的聯邦學習激勵方法在審
| 申請號: | 202210001509.2 | 申請日: | 2022-01-04 |
| 公開(公告)號: | CN114330587A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 王麗霞;王大維;王南;高強;劉曉強;教傳銘;曲睿婷;胡非;張福良;張戈 | 申請(專利權)人: | 國網遼寧省電力有限公司信息通信分公司;國家電網有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/16;G06N20/00 |
| 代理公司: | 沈陽維特專利商標事務所(普通合伙) 21229 | 代理人: | 李娜 |
| 地址: | 110006 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特定 指標 聯邦 學習 激勵 方法 | ||
本發明提供了一種特定指標下的兩階段聯邦學習激勵方法,包括如下步驟:接受平臺服務器發布的平臺模型精度提升任務指標;根據平臺服務器發布的模型精度提升目標制定學習策略;基于上述學習策略訓練獲取平臺服務器的總獎勵額;獲得平臺服務器基于對平臺模型精度值提升貢獻占比分配的獎勵額。本發明提出的一種在特定模型精度指標下的兩階段聯邦學習激勵機制,可以更加同實際相結合,降低了不必要的成本浪費,而且從數據質量與數據數量的角度設計的激勵機制更加全面、科學,系統性地提高了聯邦學習的訓練效率。
技術領域
本發明提供一種特定指標下的聯邦學習激勵方法,屬于分布式機器學習領域,具體提供了一種特定指標下的聯邦學習激勵方法。
背景技術
隨著機器學習技術的不斷發展,數據安全已經成為一個不可避免的問題,而聯合學習作為一種新的分布式機器學習模型可以很好地解決數據隱私問題?;镜穆摵蠈W習模型解決了數據隱私問題,但像人群感知、這樣的技術還存在另一個問題,即數據島和平臺服務器之間的協作變得低效。因此,設計適當的激勵機制,使每個參與者和社會的利益最大化,是普遍的做法。
聯邦學習激勵機制的主要研究方向有Stackelberg博弈、拍賣、契約理論、Shapley值、強化學習、區塊鏈等。其中,Stackelberg博弈可以很好地構建聯合學習各相關主體之間的關系,即平臺服務器與數據島之間的關系描述為主從博弈之間的關系。然而,目前的研究主要集中在理論上構建的指標不確定條件下的復雜激勵機制。但在現實中,訓練模型的精度可能只滿足具體指標的要求。即出現未結合現實情況,僅以得出理論最優解為目的,而忽略了實際操作過程中的模型精度冗余問題,可能會導致成本增加問題;未有效將數據質量和數據數量作為激勵機制的依據。
發明內容
鑒于上述問題,本發明提供了一種特定指標下的聯邦學習激勵方法,適用于平臺服務器與多個數據孤島間協作,包括如下步驟,
S1:接受平臺服務器發布的平臺模型精度提升任務指標;
S2:根據平臺服務器發布的模型精度提升目標制定學習策略;
S3:基于上述學習策略訓練獲取平臺服務器的總獎勵額;
S4:獲得平臺服務器基于對平臺模型精度值提升貢獻占比分配的獎勵額。
進一步的,步驟S2中,數據孤島基于自身效用最大化制定學習策略,具體步驟如下,
1)建立數據孤島的效用模型:
Ui=Ri-Ci,i∈(1,...,N), (1)
設定Ci=viai+μiqi,Δθi=σlogκ(qi ai);
其中,Ui為數據孤島i的效用,Ri表示數據孤島i獲得的獎勵,Ci表示數據孤島i的訓練成本,Δθi表示數據孤島i對模型訓練精度的提升值,ai為數據數量,qi為數據質量,vi為數據孤島i的數據計算、存儲成本綜合參數,μi為數據孤島i的數據處理成本參數,κ>1為訓練參數,σ為精度參數;
2)基于數據孤島效用最大化,針對上述效用模型建立目標函數:
其中,數據孤島i的決策變量為其參與訓練的數據集數量ai及數據質量qi,即自身的效用最大化策略;基于第二階段就是數據孤島之間的納什均衡博弈:解決第二階段博弈,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網遼寧省電力有限公司信息通信分公司;國家電網有限公司,未經國網遼寧省電力有限公司信息通信分公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210001509.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可進行多點同步麻醉的麻醉注射裝置
- 下一篇:一種鋼鐵燒鑄過程的冷卻裝置





