[發(fā)明專利]基于聯(lián)邦學習的GBDT與LR融合方法、裝置、設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011182203.9 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112288101A | 公開(公告)日: | 2021-01-29 |
| 發(fā)明(設(shè)計)人: | 王健宗;肖京;何安珣 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06N20/20 | 分類號: | G06N20/20;G06Q40/00;G06F21/60 |
| 代理公司: | 深圳市明日今典知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44343 | 代理人: | 王杰輝;宋慶洪 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 聯(lián)邦 學習 gbdt lr 融合 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本申請涉及一種基于聯(lián)邦學習的GBDT與LR融合方法、裝置、設(shè)備和存儲介質(zhì),所述方法包括:計算各個第一樣本的梯度,將梯度加密后傳給被動方;獲取被動方各個分組經(jīng)過加密后的梯度和組;對所述梯度和組進行解密,根據(jù)所述梯度和選取最優(yōu)特征劃分,將所述最優(yōu)特征劃分對應(yīng)的劃分值傳給被動方;獲取所述被動方被劃分為左結(jié)點或右結(jié)點的樣本空間;根據(jù)樣本空間對第一樣本進行分裂,得到GBDT模型對應(yīng)的樹結(jié)構(gòu);根據(jù)樹結(jié)構(gòu)構(gòu)建特征矩陣,進行邏輯回歸的訓練,得到LR模型。通過本申請?zhí)峁┑幕诼?lián)邦學習的GBDT與LR融合方法、裝置、設(shè)備和存儲介質(zhì),使得金融數(shù)據(jù)能夠直接聚合進行GBDT和LR模型的融合模型訓練。
技術(shù)領(lǐng)域
本申請涉及模型托管的技術(shù)領(lǐng)域,特別涉及一種基于聯(lián)邦學習的GBDT與LR融合方法、裝置、設(shè)備和存儲介質(zhì)。
背景技術(shù)
在金融場景下,經(jīng)常涉及到一些風控模型的構(gòu)建,并且由于業(yè)界需要可解釋性高的模型,因此常使用簡單有效的邏輯回歸進行分類問題的處理。但邏輯回歸是一個線性模型,并不能捕捉到非線性信息,需要大量特征工程,耗費人力物力,而GBDT(Gradient BoostDecision Tree,梯度提升樹)正好可以用來發(fā)覺有區(qū)分度的特征、特征組合,減少特征工程中人力成本。但相應(yīng)地,GBDT是一種集成方法,因此它的解釋性較低。GBDT與LR(LogisticRegression,廣義線性模型)的融合模型恰好結(jié)合了兩者的優(yōu)點,先采用GBDT來發(fā)掘有區(qū)分度的特征以及組合特征,進而使用LR構(gòu)建解釋性高的模型。
現(xiàn)有的GBDT與LR的融合模型都是建立在開源數(shù)據(jù)的基礎(chǔ)上進行模型的訓練。而如今對金融行業(yè)的管控越來越嚴格,金融數(shù)據(jù)無法被直接聚合來進行機器學習模型訓練。
發(fā)明內(nèi)容
本申請的主要目的為提供一種基于聯(lián)邦學習的GBDT與LR融合方法、裝置、設(shè)備和存儲介質(zhì),旨在解決金融數(shù)據(jù)無法直接聚合進行GBDT和LR模型的融合模型訓練的技術(shù)問題。
為實現(xiàn)上述目的,本申請?zhí)峁┝艘环N基于聯(lián)邦學習的GBDT與LR融合方法,應(yīng)用于主動方,包括以下步驟:
計算各個第一樣本的梯度,將所述梯度經(jīng)過加密后傳給被動方,其中,所述第一樣本具有標簽;
獲取被動方經(jīng)過加密后的梯度和組;其中,所述梯度和組是通過所述被動方將各個第二樣本按照屬性進行分組后,計算各個分組的梯度和所得到的梯度和組;所述第一樣本和所述第二樣本對應(yīng)相同的用戶,所述第二樣本不具有標簽;
對所述梯度和組進行解密,根據(jù)解密后的所述梯度和選取最優(yōu)特征劃分,將所述最優(yōu)特征劃分對應(yīng)的劃分值傳給所述被動方;
獲取所述被動方被劃分為左結(jié)點或右結(jié)點的樣本空間;其中,所述樣本空間是通過所述被動方將所述第二樣本根據(jù)所述劃分值進行劃分,所得到左結(jié)點或右結(jié)點對應(yīng)的樣本空間;
根據(jù)所述樣本空間對所述第一樣本進行分裂,得到GBDT模型對應(yīng)的樹結(jié)構(gòu);
根據(jù)所述樹結(jié)構(gòu)構(gòu)建特征矩陣,進行邏輯回歸的訓練,得到LR模型。
進一步地,所述對所述梯度和組進行解密,根據(jù)解密后的所述梯度和選取最優(yōu)特征劃分,將所述最優(yōu)特征劃分對應(yīng)的劃分值傳給所述被動方的步驟,包括:
對所述梯度和組進行解密;
根據(jù)解密后的所述梯度和計算所述第一樣本的增益;
根據(jù)所述增益選取最優(yōu)特征劃分;
將所述最優(yōu)特征劃分所對應(yīng)的劃分值傳遞給所述被動方。
進一步地,所述根據(jù)解密后的所述梯度和計算所述第一樣本的增益的步驟,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011182203.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Agent聯(lián)邦快速設(shè)計流程建模方法
- 基于聯(lián)邦模式的動態(tài)產(chǎn)品協(xié)同開發(fā)平臺及方法
- 一種面向深空通信的數(shù)據(jù)傳輸速率控制方法
- 一種HLA聯(lián)邦成員的動態(tài)部署分配方法
- 聯(lián)邦學習方法、系統(tǒng)、終端設(shè)備及存儲介質(zhì)
- 一種混合聯(lián)邦學習方法及架構(gòu)
- 聯(lián)邦學習的沙盒機制
- 聯(lián)邦模型參數(shù)確定方法、裝置、設(shè)備及存儲介質(zhì)
- 一種應(yīng)用于異構(gòu)計算設(shè)備的聯(lián)邦學習系統(tǒng)和方法
- 基于區(qū)塊鏈的聯(lián)邦建模方法及裝置
- 信用評價方法和裝置以及梯度漸進決策樹參數(shù)調(diào)整方法和裝置
- 模型訓練方法、廣告推薦方法、相關(guān)裝置、設(shè)備及介質(zhì)
- 在線GBDT模型學習方法及裝置
- 一種基于Bagging-Fuzzy-GBDT算法的心臟病預測方法
- 一種基于GBDT-INSGAII的EAS聲磁系統(tǒng)標簽識別算法
- 一種基于GBDT的藥品患者使用人數(shù)的預測方法及系統(tǒng)
- 基于GBDT算法的評分卡模型的建模方法及其系統(tǒng)
- 一種基于非線性集成模型的預測數(shù)據(jù)錯誤風險方法
- 一種基于GBDT模型的水質(zhì)特征礦泉水分類方法
- 評分卡模型構(gòu)建方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)





