[發明專利]一種聯邦學習場景中高效的貢獻評估方法有效
| 申請號: | 202011465470.7 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112506753B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 張蘭;李向陽;王俊豪 | 申請(專利權)人: | 德清阿爾法創新研究院 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F11/36;G06N20/00 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 陳琦;陳繼亮 |
| 地址: | 313200 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聯邦 學習 場景 高效 貢獻 評估 方法 | ||
一種聯邦學習場景中高效的貢獻評估方法,它根據訓練日志計算權重:服務器使用聯邦學習的訓練日志來計算各個用戶在模型聚合時的權重。普通聯邦學習中,第t+1個epoch中,服務器聚合模型的形式化為:又可以寫為:其中θt+1表示第t+1輪的全局模型,θt為第t個epoch的全局模型,本發明通過用戶在模型聚合時的權重來計算貢獻,極大降低了計算開銷,將指數級開銷降低為線性開銷,并且能夠加快模型收斂,提高性能;2)所使用的訓練日志是聯邦學習所固有的信息,沒有額外的隱私保護成本。
技術領域
本發明涉及的聯邦學習場景中高效的貢獻評估,屬于機器學習和數據分析領域。
背景技術
聯邦學習(Federated Learning)是一種新興的人工智能基礎技術,在2016年由谷歌最先提出,原本用于解決安卓手機終端用戶在本地更新模型的問題,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。
聯邦學習的一大特點就是它較好地解決了數據孤島問題,并且在訓練過程后,每個用戶對模型的貢獻能夠記錄在永久數據記錄機制,實際效果會在實際應用中表現出來。隨著人工智能和移動計算的飛速發展,很多數據都是眾包得到,每個用戶提供數據的質量和數量大不相同,如果根據用戶對訓練模型的貢獻對各個用戶進行反饋和激勵,則能夠激勵用戶提供更多的數據和更多的用戶參與到聯邦學習中,促人工智能的發展。
針對機器學習的和聯邦學習的貢獻評估已有一系列工作,但他們都不適用于現實聯邦學習系統,相關的技術包括博弈論和機器學習可解釋性研究等,他們旨在通過分析數據樣本對模型訓練效果的影響來確定其貢獻?,F有工作通常使用沙普利值來計算各個訓練樣本對模型訓練的貢獻,但這不能直接用于聯邦系統中,主要原因是計算沙普利值需要指數級的計算和通信開銷,這在現實的聯邦學習系統中通常不可能實現。
發明內容
本發明的目的在于克服現有技術的不足,高效的評估聯邦學習系統中每個用戶對聯邦學習系統的貢獻,并并且能夠加快模型訓練的收斂,提升模型的性能,本發明的主要步驟為:主要步驟如下:
1)根據訓練日志計算權重:服務器使用聯邦學習的訓練日志(用戶的模型更新參數t∈[T],n∈[N],t表示訓練輪數,n表示用戶數)來計算各個用戶在模型聚合時的權重。普通聯邦學習中,第t+1個epoch中,服務器聚合模型的形式化為:又可以寫為:其中θt+1表示第t+1輪的全局模型,θt為第t個epoch的全局模型,η為學習率。由于服務器不能訪問到各個用戶的訓練數據,并且數據很多都是眾包得到,各個用戶的數據質量和分布情況大不相同,所以服務器只能使用自己擁有的數據作為測試數據集測試全局模型性能,這里假設服務器擁有的測試數據集是高質量的數據集(沒有噪音且分布均勻)。在聯邦學習訓練的過程中,服務器傾向于降低全局模型在測試數據集的損失函數,即:argminlossv(θ),其中,lossv(θ)表示模型θ在測試數據集(validation set)的損失函數。
要求解最優的權重最直觀的方法是使用梯度下降,即:
其中,
在求得后,使用作為用戶在模型聚合時的權重。
2)根據權重計算貢獻:在上一步中,已經求得各個用戶在模型聚合時的權重。使用權重作為沙普利值的效用函數,即可在線性時間內計算得到沙普利值,避免指數級的開銷。計算用戶φi的沙普利值:
即:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于德清阿爾法創新研究院,未經德清阿爾法創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011465470.7/2.html,轉載請聲明來源鉆瓜專利網。





