[發明專利]基于聯邦訓練的樣本預測方法、裝置及存儲介質有效
| 申請號: | 201810913869.3 | 申請日: | 2018-08-10 |
| 公開(公告)號: | CN109165683B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 范濤;成柯葳;馬國強;劉洋;陳天健;楊強 | 申請(專利權)人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F18/214;G06F18/27;G06F18/243 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國;魏蘭 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聯邦 訓練 樣本 預測 方法 裝置 存儲 介質 | ||
本發明公開了一種基于聯邦訓練的樣本預測方法,包括以下步驟:采用XGboost算法對兩個對齊的訓練樣本進行聯邦訓練,以構建梯度提升樹模型,其中,所述梯度提升樹模型包括多棵回歸樹,所述回歸樹的一個分裂節點對應訓練樣本的一個特征;基于所述梯度提升樹模型,對待預測樣本進行聯合預測,以確定待預測樣本的樣本類別或獲得待預測樣本的預測得分。本發明還公開了一種基于聯邦訓練的樣本預測裝置及計算機可讀存儲介質。本發明實現了使用不同數據方的訓練樣本進行聯邦訓練建模,進而基于建立的模型實現樣本預測。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種基于聯邦訓練的樣本預測方法、裝置及計算機可讀存儲介質。
背景技術
當前信息時代,人們的某些行為可以通過數據表現出來,比如消費行為,因而衍生出了大數據分析,通過機器學習構建相應的行為分析模型,進而可對人們的行為進行分類或者基于用戶的行為特征進行預測等。
現有的機器學習技術中通常都是由一方對樣本數據進行獨立訓練,也即是單方建模。同時,基于建立的數學模型,可確定樣本特征集中重要程度相對較高的特征。然而在很多跨領域的大數據分析場景中,比如用戶既有消費行為,也有借貸行為,而用戶消費行為數據產生在消費服務提供方,而用戶借貸行為數據產生在金融服務提供方,如果金融服務提供方需要基于用戶的消費行為特征預測用戶的借貸行為,則需要使用消費服務提供方的消費行為數據并與本方的借貸行為數據一起進行機器學習來構建預測模型。
因此,針對上述應用場景,需要一種新的建模方式來實現不同數據提供方的樣本數據的聯合訓練,進而實現雙方共同參與建模。
發明內容
本發明的主要目的在于提供一種基于聯邦訓練的樣本預測方法、裝置及計算機可讀存儲介質,旨在解決現有技術無法實現不同數據提供方的樣本數據的聯合訓練,進而無法實現雙方共同參與建模與樣本預測的技術問題。
為實現上述目的,本發明提供一種基于聯邦訓練的樣本預測方法,所述基于聯邦訓練的樣本預測方法包括以下步驟:
采用XGboost算法對兩個對齊的訓練樣本進行聯邦訓練,以構建梯度提升樹模型,其中,所述梯度提升樹模型包括多棵回歸樹,所述回歸樹的一個分裂節點對應訓練樣本的一個特征;
基于所述梯度提升樹模型,對待預測樣本進行聯合預測,以確定待預測樣本的樣本類別或獲得待預測樣本的預測得分。
可選地,所述基于聯邦訓練的樣本預測方法包括:
在進行聯邦訓練之前,采用盲簽名和RSA加密演算法,對樣本數據的ID進行交互加密;
通過比較雙方加密后的ID加密串,識別雙方樣本中的交集部分,并將樣本中的交集部分作為樣本對齊后的訓練樣本。
可選地,所述兩個對齊的訓練樣本分別為第一訓練樣本和第二訓練樣本;
所述第一訓練樣本屬性包括樣本ID以及部分樣本特征,所述第二訓練樣本屬性包括樣本ID、另一部分樣本特征以及數據標簽;
所述第一訓練樣本由第一數據方提供并保存在第一數據方本地,所述第二訓練樣本由第二數據方提供并保存在第二數據方本地。
可選地,所述采用XGboost算法對兩個對齊的訓練樣本進行聯邦訓練,以構建梯度提升樹模型包括:
在所述第二數據方側,獲取本輪節點分裂對應的樣本集中各訓練樣本的一階梯度與二階梯度;
若本輪節點分裂為構造回歸樹的首輪節點分裂,則對所述一階梯度與所述二階梯度進行加密后與所述樣本集的樣本ID一起發送至所述第一數據方,以供在所述第一數據方側基于加密的所述一階梯度與所述二階梯度,計算本地與所述樣本ID對應的訓練樣本在每一種分裂方式下分裂節點的收益值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海微眾銀行股份有限公司,未經深圳前海微眾銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810913869.3/2.html,轉載請聲明來源鉆瓜專利網。





