[發明專利]基于動態抽樣的梯度提升決策樹模型構建優化方法在審
| 申請號: | 202110632129.4 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113537497A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 李暉;周彧;李一水 | 申請(專利權)人: | 貴州優聯博睿科技有限公司 |
| 主分類號: | G06N5/00 | 分類號: | G06N5/00;G06N20/20;G06F9/50 |
| 代理公司: | 北京華創智道知識產權代理事務所(普通合伙) 11888 | 代理人: | 彭隨麗 |
| 地址: | 550081 貴州省貴陽*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 動態 抽樣 梯度 提升 決策樹 模型 構建 優化 方法 | ||
1.基于動態抽樣的梯度提升決策樹模型構建優化方法,其特征在于:包括以下步驟:
將動態抽樣應用于提升算法中;
對面向樹提升算法進行特征抽樣;
確定面向提升算法的動態抽樣策略。
2.根據權利要求1所述的基于動態抽樣的梯度提升決策樹模型構建優化方法,其特征在于:動態抽樣的算法執行流程包括以下步驟:
根據當前對p的估計來確定是否獲取到足夠樣本;
m用于統計迄今為止滿足B(x)=1的樣本數量,n用于統計迄今為止所有樣本數量;
動態抽樣算法持續執行抽樣,直到當前樣本集合中包含滿足B(x)=1的樣本數量超過A為止,A依賴于預設的準確性參數和可靠性參數,在較為復雜的抽樣方案中,A的大小也取決于
3.根據權利要求2所述的基于動態抽樣的梯度提升決策樹模型構建優化方法,其特征在于:所述對面向樹提升算法進行特征抽樣包括:
基于奇異值分解的抽樣,利用特征重要性分數,根據各個特征對應分數的占比來對特征進行不等概率抽樣,具體抽樣方法包括以下步驟:
對矩陣A進行分解,在一組列上構造一個非均勻的重要性抽樣分布,依據該概率分布模型對特征進行抽樣;
另為一個由n個實例和d個特征構成的數據矩陣,且當n<<d時,該矩陣的秩滿足r:=rank(A)≤n,并對A進行奇異值分解,即另A=U∑VT,其中表示包含了右奇異向量的集合;
其中,vi(j)表示第i個右奇異向量的第j個值。
4.根據權利要求3所述的基于動態抽樣的梯度提升決策樹模型構建優化方法,其特征在于:所述確定面向提升算法的動態抽樣策略包括:
LightGBM算法庫,其用于根據內部的模塊并提供不同的服務,具體分為三大層:應用程序接口層、核心算法層、基礎服務層,上層模塊中的算法包依賴下層模塊算法包提供的服務,其中,核心算法層中算法模塊的運行均依賴下層提供的與通信、文件操作相關的基礎服務,應用程序接口定義與用戶的交互模式,向外提供訪問接口,算法邏輯的執行依賴于下層實現;
基于Massart不等式的動態抽樣,其抽樣計算公式為:另p=E[X],為伯努利變量X的期望,另為n重伯努利試驗成功的相對頻率,對于任意的0z≤p,滿足關系:對于任意的pz≤1,滿足關系:
基于動態抽樣的GBM實現,將Ph,S的初始值設置為0.5,用以計算第一輪迭代時所需抽取的樣本大小,后續迭代使用前一輪迭代的預測準確率計算樣本大小;
根據參數中抽樣率按比例計算計算當前線程提取的樣本大小,針對當前線程所需處理的索引區間進行抽樣,將未/入樣的數據索引寫入預分配的全局臨時索引緩沖區tmp_indices_buf,其中,入樣數據的索引值從每個線程操作的內存區域的起始位置開始連續寫入,未入樣數據的索引值緊接存儲入樣數據索引的內存單元寫入。
5.根據權利要求4所述的基于動態抽樣的梯度提升決策樹模型構建優化方法,其特征在于:LightGBM算法庫包括三個參數,分別為:
第一參數featImportances用于存儲所有特征于模型貢獻的向量;
第二參數validFeatIndices用于存儲特征實際索引為的向量,該向量的大小和featImportances具有相同的大小;
第三參數為需要入樣的特征個數。
6.根據權利要求5所述的基于動態抽樣的梯度提升決策樹模型構建優化方法,其特征在于:還包括計算需要保留的具有高貢獻量的特征個數,其中p由用戶參數remain_feature_fraction指定,根據所有特征的貢獻量按降序排序,返回排序完成后的特征實際索引位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州優聯博睿科技有限公司,未經貴州優聯博睿科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110632129.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于腦連接結構的癲癇腦電識別系統
- 下一篇:一種服務訂閱系統





