[發明專利]一種聯邦學習場景中的數據選擇方法在審
| 申請號: | 202011464915.X | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112464269A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 張蘭;李向陽;李安然 | 申請(專利權)人: | 德清阿爾法創新研究院 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06F21/62;G06N20/00 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 陳琦;陳繼亮 |
| 地址: | 313200 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聯邦 學習 場景 中的 數據 選擇 方法 | ||
一種聯邦學習場景中的數據選擇方法,所述該方法包括過濾出和任務相關的用戶和數據、訓練前用戶選擇、訓練過程中用戶和數據選擇、模型訓練,本發明采用了向量草圖和隨機響應機制,用戶選擇策略高效且帶有隱私保護;同時由于采用了server端日志信息來動態選擇用戶;基于梯度上界值選擇數據,以及考慮到錯誤數據對梯度的影響,數據選擇策略高效且準確。
技術領域
本發明涉及的聯邦學習場景中的數據選擇方法,屬于數據分析與數據質量評估領域。
背景技術
如何獲取大量的高質量數據集已成為許多機器學習模型和AI應用的常見瓶頸。這不僅是因為收集和標記大量樣本非常昂貴,而且還因為隱私問題阻礙了許多領域(例如醫學和經濟學)的數據共享。聯邦學習的出現使得終端用戶利用本地數據聯合訓練網絡模型成為可能。在聯邦學習過程中,用戶本地的數據質量影響全局模型的性能,低質量數據(例如,錯誤標簽數據,非均勻分布的數據)將嚴重阻礙全局模型取得良好的效果。
本發明旨在一給定預算下,以一種隱私保護的方式為給定的聯邦學習任務選擇一組高質量的訓練樣本,從而提高模型的精度和加快模型收斂速度。
針對深度學習中的數據選擇已有一系列工作:1)他們提出多種質量指標,例如任務相關性和內容多樣性,并對數據樣本進行質量指標檢測,選擇質量分數高的數據參與訓練。2)動態選擇對模型重要的訓練樣本,以在訓練過程中組成數據batch,以加速模型收斂,通常,重要性分數通過梯度范數或損失值來量化。但他們不能直接用于聯邦學習中:1)現有的方法需要直接訪問所有訓練樣本,而在聯邦系統中,數據不能被第三方直接訪問到。2)直接計算每個樣本的重要性對資源有限的參與者造成不可接受的開銷。3)現有的方法沒有考慮非IID或者錯誤樣本對樣本選擇策略的影響,并且可能會給錯誤的樣本賦予更高的重要性,從而降低模型性能。
發明內容
本發明的目的在于克服現有技術的不足,提供一種隱私保護的方式為給定的聯邦學習任務選擇一組高質量的訓練樣本,從而提高模型的精度和加快模型收斂速度。所述該方法包括過濾出和任務相關的用戶和數據、訓練前用戶選擇、訓練過程中用戶和數據選擇、模型訓練。
作為優選:任務相關用戶和數據過濾為當一FL任務到達時,server首先通過計算每個用戶Ck,k∈[K]的標簽集Yk={yk|(xk,yk)∈Dk}和目標標簽集Y的交集{(xk,yk)|yk∈Yk∩Y},以過濾出擁有目標類別數據的用戶。如果相交集中的樣本數量超過目標模型的最小數量|{(xk,yk)|yk∈Yk∩Y}|>v,則該用戶是相關的,為了滿足隱私保護的需求,我們使用隱私保護求交技術(PSI)。
作為優選:訓練前用戶選擇:server使用基于點陣行列式(DPP)算法從相關用戶集中進一步選擇高質量用戶集(用戶下標集合Q),以在預算約束B下最大化同質性和內容多樣性:max V(Q),s.t.,∑k∈Q,Q∈N′bk≤B.V(Q)是被選中的用戶的質量價值。然后,server協調選定的用戶以開始訓練模型。在該模塊中,主要分為以下步驟:
a)基于同質性用戶選擇:server優先選擇那些數據分布均勻且類別不缺失的用戶。以同質性為選擇用戶的指標時,Vμ(Q)=∑k∈Qμk,μk定義為用戶k的數據分布和均勻分布之間的差異性,即:為了保護隱私的計算μk,我們利用基于BGN的同態加密的高效安全的兩方計算協議,讓server和每個用戶使用server的公鑰共同計算。然后server通過貪婪地選擇具有最大的用戶,直到預算B用完,找到最佳用戶集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于德清阿爾法創新研究院,未經德清阿爾法創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011464915.X/2.html,轉載請聲明來源鉆瓜專利網。





