[發明專利]聯邦學習方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110382357.0 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113807538A | 公開(公告)日: | 2021-12-17 |
| 發明(設計)人: | 張文夕;王佩琪;顧松庠 | 申請(專利權)人: | 京東科技控股股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F21/60 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王萌 |
| 地址: | 100176 北京市北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聯邦 學習方法 裝置 電子設備 存儲 介質 | ||
本申請提出了一種聯邦學習訓練方法,其中,執行主體為服務器的方法包括接收各個客戶端發送的自身的有標簽樣本的梯度信息;根據各個客戶端發送的所述梯度信息,獲取屬于同一有標簽樣本的目標梯度信息;確定每個有標簽樣本所屬的客戶端;將所述有標簽樣本對應的目標梯度信息,發送所述有標簽樣本所屬的客戶端。本申請中,所涉及的多個客戶端的有標簽樣本的梯度信息均作為聯邦學習訓練的樣本基礎數據,針對多個客戶端存在的同一有標簽樣本無丟棄,進一步地,通過多個客戶端的同一有標簽樣本的梯度信息的融合計算以及更新,實現了對于模型訓練偏差的有效修正,進而提高了模型訓練的準確性。
技術領域
本申請涉及數據統計分析領域,尤其涉及一種聯邦學習方法、裝置、電子設備及存儲介質。
背景技術
在機器學習模型的訓練過程中,樣本的標簽數據可以用于計算梯度、節點分裂增益等數值,相關技術中,本地機器學習算法的數據會分布在多個平臺,且平臺與平臺之間無法實現數據的傳輸,故而,當多方平臺都持有某一個標簽的數據時,會僅限定某一個指定的平臺持有該擁有該標簽的樣本數據,而其他平臺的擁有該標簽的樣本數據將被丟棄,導致樣本數據的丟棄率較高,使得當部分樣本標簽出現錯誤標注的情況時,無法利用其它平臺的擁有同樣標簽的樣本數據實現有效的修正,進而導致模型訓練的準確性受到一定程度的影響。
發明內容
本申請旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本申請第一方面提出一種聯邦學習訓練方法。
本申請第二方面還提出一種聯邦學習訓練方法。
本申請第三方面提出一種聯邦學習訓練裝置。
本申請第四方面還提出一種聯邦學習訓練裝置。
本申請第五方面提出一種電子設備。
本申請第六方面提出一種計算機可讀存儲介質。
本申請第七方面提出一種計算機程序產品。
本申請第一方面提出一種聯邦學習訓練方法,所述方法由服務器執行,所述方法包括:接收各個客戶端發送的自身的有標簽樣本的梯度信息;根據各個客戶端發送的所述梯度信息,獲取屬于同一有標簽樣本的目標梯度信息;確定每個有標簽樣本所屬的客戶端;將所述有標簽樣本對應的目標梯度信息,發送所述有標簽樣本所屬的客戶端。
另外,本申請第一方面提出的聯邦學習訓練方法,還可以具有如下附加的技術特征:
根據本申請的一個實施例,所述確定每個有標簽樣本所屬的客戶端,包括:針對任一有標簽樣本,根據所述任一有標簽樣本的第一標識信息,查詢有標簽樣本與客戶端之間的映射關系,獲取與所述任一有標簽樣本的第一標識信息匹配的客戶端。
根據本申請的一個實施例,所述聯邦學習訓練方法,還包括:接收各個客戶端在訓練開始之前發送的有標簽樣本的第一標識信息;獲取屬于同一客戶端有標簽樣本的第一標識信息,并建立客戶端的第二標識信息與所述第一標識信息之間的映射關系。
根據本申請的一個實施例,所述根據各個客戶端發送的所述梯度信息,獲取屬于同一有標簽樣本的目標梯度信息,包括:獲取所述同一有標簽樣本所涉及的客戶端的權重;根據所涉及的客戶端的權重和所述同一有標簽樣本的出現次數,對所述同一有標簽樣本所涉及的客戶端發送的所述梯度信息進行加權求平均,得到所述目標梯度信息。
根據本申請的一個實施例,所述聯邦學習訓練方法,還包括:接收各個客戶端在訓練開始之前發送的有標簽樣本的第一標識信息之后,統計每個有標簽樣本的出現次數。
根據本申請的一個實施例,所述聯邦學習訓練方法,還包括:與所述客戶端之間的數據傳輸需要進行加密。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技控股股份有限公司,未經京東科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110382357.0/2.html,轉載請聲明來源鉆瓜專利網。





