[發明專利]基于聯邦訓練的樣本預測方法、裝置及存儲介質有效
| 申請號: | 201810913869.3 | 申請日: | 2018-08-10 |
| 公開(公告)號: | CN109165683B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 范濤;成柯葳;馬國強;劉洋;陳天健;楊強 | 申請(專利權)人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F18/214;G06F18/27;G06F18/243 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國;魏蘭 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聯邦 訓練 樣本 預測 方法 裝置 存儲 介質 | ||
1.一種基于聯邦訓練的樣本預測方法,其特征在于,所述基于聯邦訓練的樣本預測方法包括以下步驟:
采用XGboost算法對兩個對齊的訓練樣本進行聯邦訓練,以構建梯度提升樹模型,其中,所述兩個對齊的訓練樣本分別為第一訓練樣本和第二訓練樣本,所述第一訓練樣本由第一數據方提供并保存在第一數據方本地,所述第二訓練樣本由第二數據方提供并保存在第二數據方本地;所述梯度提升樹模型包括多棵回歸樹,所述回歸樹的一個分裂節點對應訓練樣本的一個特征;
基于所述梯度提升樹模型,對待預測樣本進行聯合預測,以確定待預測樣本的樣本類別或獲得待預測樣本的預測得分;
其中,所述采用XGboost算法對兩個對齊的訓練樣本進行聯邦訓練,以構建梯度提升樹模型包括:
在所述第二數據方側,獲取本輪節點分裂對應的樣本集中各訓練樣本的一階梯度與二階梯度;
若本輪節點分裂為構造回歸樹的首輪節點分裂,則對所述一階梯度與所述二階梯度進行加密后與所述樣本集的樣本ID一起發送至所述第一數據方,以供在所述第一數據方側基于加密的所述一階梯度與所述二階梯度,計算本地與所述樣本ID對應的訓練樣本在每一種分裂方式下分裂節點的收益值;
若本輪節點分裂為構造回歸樹的非首輪節點分裂,則將所述樣本集的樣本ID發送至所述第一數據方,以供在所述第一數據方側沿用首輪節點分裂所使用的一階梯度與二階梯度,計算本地與所述樣本ID對應的訓練樣本在每一種分裂方式下分裂節點的收益值;
第二數據方接收所述第一數據方返回的所有分裂節點的加密收益值并進行解密;
在所述第二數據方側,基于所述一階梯度與所述二階梯度,計算本地與所述樣本ID對應的訓練樣本在每一種分裂方式下分裂節點的收益值;
基于雙方各自計算出的所有分裂節點的收益值,確定本輪節點分裂的全局最佳分裂節點;
基于本輪節點分裂的全局最佳分裂節點,對當前節點對應的樣本集進行分裂,生成新的節點以構建梯度提升樹模型的回歸樹。
2.如權利要求1所述的基于聯邦訓練的樣本預測方法,其特征在于,所述基于聯邦訓練的樣本預測方法包括:
在進行聯邦訓練之前,采用盲簽名和RSA加密演算法,對樣本數據的ID進行交互加密;
通過比較雙方加密后的ID加密串,識別雙方樣本中的交集部分,并將樣本中的交集部分作為樣本對齊后的訓練樣本。
3.如權利要求1所述的基于聯邦訓練的樣本預測方法,其特征在于,所述第一訓練樣本屬性包括樣本ID以及部分樣本特征,所述第二訓練樣本屬性包括樣本ID、另一部分樣本特征以及數據標簽。
4.如權利要求1所述的基于聯邦訓練的樣本預測方法,其特征在于,所述在所述第二數據方側,獲取本輪節點分裂對應的樣本集中各訓練樣本的一階梯度與二階梯度的步驟之前,還包括:
在進行節點分裂時,判斷本輪節點分裂是否對應構造首棵回歸樹;
若本輪節點分裂對應構造首棵回歸樹,則判斷本輪節點分裂是否為構造首棵回歸樹的首輪節點分裂;
若本輪節點分裂為構造首棵回歸樹的首輪節點分裂,則在所述第二數據方側,初始化本輪節點分裂對應的樣本集中各訓練樣本的一階梯度與二階梯度;若本輪節點分裂為構造首棵回歸樹的非首輪節點分裂,則沿用首輪節點分裂所使用的一階梯度與二階梯度;
若本輪節點分裂對應構造非首棵回歸樹,則判斷本輪節點分裂是否為構造非首棵回歸樹的首輪節點分裂;
若本輪節點分裂為構造非首棵回歸樹的首輪節點分裂,則根據上一輪聯邦訓練更新一階梯度與二階梯度;若本輪節點分裂為構造非首棵回歸樹的非首輪節點分裂,則沿用首輪節點分裂所使用的一階梯度與二階梯度。
5.如權利要求1所述的基于聯邦訓練的樣本預測方法,其特征在于,所述基于聯邦訓練的樣本預測方法還包括:
當生成新的節點以構建梯度提升樹模型的回歸樹時,在所述第二數據方側,判斷本輪回歸樹的深度是否達到預設深度閾值;
若本輪回歸樹的深度達到所述預設深度閾值,則停止節點分裂,得到梯度提升樹模型的一棵回歸樹,否則繼續下一輪節點分裂;
當停止節點分裂時,在所述第二數據方側,判斷本輪回歸樹的總數量是否達到預設數量閾值;
若本輪回歸樹的總數量達到所述預設數量閾值,則停止聯邦訓練,否則繼續下一輪聯邦訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海微眾銀行股份有限公司,未經深圳前海微眾銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810913869.3/1.html,轉載請聲明來源鉆瓜專利網。





