[發明專利]基于動態抽樣的梯度提升決策樹模型構建優化方法在審
| 申請號: | 202110632129.4 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113537497A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 李暉;周彧;李一水 | 申請(專利權)人: | 貴州優聯博??萍加邢薰?/a> |
| 主分類號: | G06N5/00 | 分類號: | G06N5/00;G06N20/20;G06F9/50 |
| 代理公司: | 北京華創智道知識產權代理事務所(普通合伙) 11888 | 代理人: | 彭隨麗 |
| 地址: | 550081 貴州省貴陽*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 動態 抽樣 梯度 提升 決策樹 模型 構建 優化 方法 | ||
本發明涉及基于動態抽樣的梯度提升決策樹模型構建優化方法,包括以下步驟:將動態抽樣應用于提升算法中;對面向樹提升算法進行特征抽樣;確定面向提升算法的動態抽樣策略。本發明提供將應用基于Massart不等式的動態抽樣技術構建GBDT模型以進一步加速訓練過程,在保證模型準確性的前提下使用更少的樣本量來構建模型,基于GBDT的特征貢獻指標設計并實現特征抽樣算法,減小模型構建過程中所需搜索的空間。
技術領域
本發明涉及大數據技術領域,尤其涉及基于動態抽樣的梯度提升決策樹模型構建優化方法。
背景技術
規模日益龐大的數據集為高效開展挖掘工作帶來巨大挑戰。梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)由于高效、易解釋、預測能力強等特點被廣泛應用于機器學習與數據挖掘任務。為了進一步增強GBDT模型的可擴展性、加速模型學習過程,現有的GBDT工具均采用有放回抽樣作為行抽樣策略達到減小數據規模的目的;并利用簡單隨機抽樣作為特征抽樣方法以減小GBDT模型構建時的搜索空間。對此,Chernoff/Hoeffding界常用來為抽樣方案估計構建模型所需的樣本量,但該方法容易過高估計所需樣本量。上述的列抽樣方法在選擇特征樣本子集時未考慮任何先驗信息,存在無法選取具有足夠代表性的特征入樣問題。
動態抽樣技術由于參數配置簡單、能夠更加精確的估計樣本量等特點為改進GBDT行抽樣中存在的上述問題提供了可行的解決方案;此外,通過利用GBDT模型構建時生成的“特征重要性”信息,為改進GBDT中特征抽樣算法提供了可用的先驗信息。
目前現有的面向提升算法的基于樣本權重的抽樣技術不完全適用于GBDT。對此,LightGBM提出一個新的基于梯度的單側抽樣技術(Gradient-based One Side Sampling,GOSS),根據GBDT信息增益的定義,樣本實例的梯度值與該實例對模型輸出的貢獻程度成正比。GOSS基于這一點通過剔除部分對模型損失影響較小的樣本來進行抽樣。實驗證明了在同樣的抽樣比下,基于GOSS得到的樣本模型準確性高于均勻隨機抽樣。LightGBM將抽樣率作為用戶參數來確定抽樣算法抽取的樣本大小,但由于合適的樣本大小往往難以確定,用戶常?;谥庇X配置參數。對此,數據挖掘領域的靜態抽樣方案設計中常常使用Chernoff界、Hoeffding界來估計樣本大小,雖然解決了需要對樣本量參數進行配置的問題,但由于沒有與挖掘工具結合起來,不能較為準確的反應模型訓練所需的樣本量,在實際應用中,常常導致抽取過多不必要的數據樣本。
發明內容
本發明的目的在于提供基于動態抽樣的梯度提升決策樹模型構建優化方法,提供將應用基于Massart不等式的動態抽樣技術構建GBDT模型以進一步加速訓練過程,在保證模型準確性的前提下使用更少的樣本量來構建模型,基于GBDT的特征貢獻指標設計并實現特征抽樣算法,減小模型構建過程中所需搜索的空間,可以解決背景技術中的問題。
為了解決上述技術問題,本發明提供的基于動態抽樣的梯度提升決策樹模型構建優化方法的技術方案具體如下:
本發明實施例公開了基于動態抽樣的梯度提升決策樹模型構建優化方法,包括以下步驟:
將動態抽樣應用于提升算法中;
對面向樹提升算法進行特征抽樣;
確定面向提升算法的動態抽樣策略。
在上述任一方案中優選的是,動態抽樣的算法執行流程包括以下步驟:
根據當前對p的估計來確定是否獲取到足夠樣本;
m用于統計迄今為止滿足B(x)=1的樣本數量,n用于統計迄今為止所有樣本數量;
動態抽樣算法持續執行抽樣,直到當前樣本集合中包含滿足B(x)=1的樣本數量超過A為止,A依賴于預設的準確性參數和可靠性參數,在較為復雜的抽樣方案中,A的大小也取決于
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州優聯博??萍加邢薰荆唇涃F州優聯博??萍加邢薰驹S可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110632129.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于腦連接結構的癲癇腦電識別系統
- 下一篇:一種服務訂閱系統





