[發明專利]基于XGBoost的聯邦學習訓練及預測方法以及裝置在審
| 申請號: | 202111596095.4 | 申請日: | 2021-12-24 |
| 公開(公告)號: | CN114372516A | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 王麗;孟慶樹;張新訪;董逢華 | 申請(專利權)人: | 武漢天喻信息產業股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 秦曼妮 |
| 地址: | 430223 湖北省武漢市*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 xgboost 聯邦 學習 訓練 預測 方法 以及 裝置 | ||
本發明提供了一種基于XGBoost的聯邦學習訓練及預測方法以及裝置,應用于一個發起方和多個合作方,該方法包括以下步驟:發起方利用自己持有的特征數據創建第一棵決策樹;發起方和合作方協作依次建立第m棵決策樹,m=2,3,...,M,其中M為訓練的決策樹總數,訓練得到基于XGBoost的聯邦學習模型;建立第m棵決策樹的過程中,發起方計算每個真實結點樣本空間的最優特征及特征閾值,同時為每組最優特征及特征閾值額外匹配一個結點樣本空間作為假結點樣本空間,發送給對應特征持有方,特征持有方根據收到的特征及特征閾值劃分當前結點樣本空間,并將結果通知發起方;利用上述訓練得到的聯邦學習模型對待預測對象的標簽進行預測。本發明降低了模型泄露的風險,模型預測速度快。
技術領域
本發明涉及計算機技術領域,尤其涉及一種基于XGBoost的聯邦學習訓練及預測方法以及裝置。
背景技術
隨著大數據和人工智能的不斷發展,人們對數據隱私保護的需求日益提升。傳統場景下,整個數據集均存儲在同一組織或設備中,通過集中式訓練的方式獲得結果。然而在現實場景中,大量有用數據分布在不同組織或設備中。若能在滿足數據隱私和安全的前提下匯聚不同設備或組織的敏感數據,訓練一個全局模型,便能解決“數據孤島”問題,獲得更好的體驗。聯邦學習主要分為三類:橫向聯邦、縱向聯邦和聯邦遷移,其中當不同機構或組織擁有的數據特征重合較少但用戶ID重合較多時,使用縱向聯邦進行學習。
在縱向聯邦建模過程中,只有發起方可以擁有全局模型和標簽,而僅利用自身數據配合訓練而無法擁有全局模型和標簽的一方稱為合作方。縱向聯邦學習常用于風控及營銷領域。在傳統的集中式學習中,機器學習算法以其良好的精確度和效率被廣泛應用,其中決策樹是用于分類和回歸的經典有效方法,XGBoost算法是以決策樹為基函數的梯度提升算法,憑借其良好的性能被廣泛應用。將集中式學習的機器學習算法XGBoost算法融入聯邦學習場景中,通過分布式學習便可以在保護數據隱私安全的前提下訓練一個全局模型,其中Scureboost就是一種將XGBoost算法融入聯邦學習場景的先進方案。
在Scureboost模型訓練階段,由發起方計算當前損失函數梯度并將梯度密文下發給所有合作方,合作方依據自身持有特征聚合結點樣本梯度密文,發起方解密聚合梯度密文后計算結點樣本空間最優分割并通知最優分割特征持有方劃分結點樣本空間,被選擇的合作方執行劃分任務后將劃分結果發送給發起方,由發起方將結點樣本空間劃分結果同步給其他合作方。迭代上述結點樣本空間劃分過程構建單棵決策樹,并通過梯度提升方法訓練模型。
在實際生產中,不僅需要考慮到模型的精度和安全性,如何優化模型推理性能是模型落地、工程化的一大難點。目前基于樹形結構的模型預測方法中,發起方依據訓練模型并通過與合作方進行多輪通信來獲取預測對象標簽是一種經典方法,但實際中多輪通信會帶來嚴重的通信負擔。另外,參與方首先利用本地模型進行推理后再交由發起方求交也可以獲得對象標簽,雖然這種方式僅需要發起方和合作方進行一輪通信,但通信量和合作方的計算量會有明顯增加。
現有的模型主要存在以下缺陷:
1、在模型訓練階段,發起方將結點樣本空間與合作方共享,會造成模型信息泄露。
2、在模型預測階段,模型預測性能不佳,若通過發起方和合作方多輪通信的方式獲取標簽則會帶來通信次數負擔,若通過一次通信求交的方式獲取標簽會帶來計算量和通信量負擔。
發明內容
為解決現有技術存在的至少部分缺陷,本發明提供一種基于XGBoost的聯邦學習訓練及預測方法以及裝置。
本發明是這樣實現的:
第一方面,本發明提供一種基于XGBoost的聯邦學習訓練及預測方法,應用于一個發起方和多個合作方,該方法包括以下步驟:
發起方利用自己持有的特征數據創建第一棵決策樹;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢天喻信息產業股份有限公司,未經武漢天喻信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111596095.4/2.html,轉載請聲明來源鉆瓜專利網。





