[發明專利]提高梯度提升樹模型的特征值作用和防止過擬合的方法在審
| 申請號: | 201910274219.3 | 申請日: | 2019-04-08 |
| 公開(公告)號: | CN110232448A | 公開(公告)日: | 2019-09-13 |
| 發明(設計)人: | 楊萃;黃曉鴻 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 擬合 離散化 分裂點 樹模型 決策樹模型 人工智能 大數定理 輸出目標 輸入特征 損失函數 圖像識別 語音識別 真實分布 權重和 偏置 應用 篩選 預測 廣告 表現 | ||
1.提高梯度提升樹模型的特征值作用和防止過擬合的方法,其特征在于包括以下步驟:
步驟1:對樣本集D確定梯度提升樹模型的輸入特征xij和輸出變量yi,其中i表示第i個樣本,j表示第j個特征,樣本個數為n,特征值個數為m;定義損失函數;
步驟2:對特征值xij進行歸一化;
步驟3:對預測值初始化為yi的平均值
步驟4:對特征值xij離散化得出所有的分裂點,分裂點個數為s;
步驟5:計算輸入樣本的一階偏導gi和二階偏導hi;
步驟6:在第k個葉子節點上,對于每一個分裂點,該葉子節點的樣本Dk會預分裂為左樣本L和右樣本R,其中L+R=Dk,如果k為0,則D0=D;遍歷所有分裂點,計算左樣本L和右樣本R的所有特征值的特征值權重w1、特征值偏置w2及對應的分裂增益gain;此時會得到s份左樣本L和右樣本R,s×m個特征值權重w1、特征值偏置w2及對應的分裂增益gain;
步驟7:如果用戶定義的損失函數為MSE函數,即則執行t分布防止過擬合方式,如果用戶定義的損失函數不是則直接執行步驟8;
步驟8:從s×m個gain中找出最大的gain,及對應的分裂點、特征值權重w1、特征值偏置w2、特征值權重w1和特征值偏置w2對應的選定特征r,但暫時不分裂;
步驟9:從所有的節點中找出gain最大的節點,對該節點進行分裂;
步驟10:對新分裂出來的兩個節點重復步驟6~10,直到葉子節點個數大于用戶指定的葉子節點個數;至此構建完畢一棵弱決策樹;
步驟11:對數據集根據該決策樹上非葉子節點上的分裂點將數據分裂到各個葉子節點上;
步驟12:對各葉子節點上的數據,更新預測值:第t棵弱決策樹的預測值其中η為學習率,i為第i個樣本,k為第k個葉子節點,r為第r個特征,t為第t棵弱決策樹;
步驟13:重復5~13,直至弱決策樹棵數達到用戶給定的弱決策樹總數或驗證集準確率不再提升。
2.根據權利要求1所述的提高梯度提升樹模型的特征值作用和防止過擬合的方法,其特征在于步驟1定義損失函數為logloss或MSE。
3.根據權利要求2所述的提高梯度提升樹模型的特征值作用和防止過擬合的方法,其特征在于步驟2中對特征值xij進行歸一化方法包括:
1)xij=(xij-μj)/σj,μj,σj分別為特征xj的均值,標準差;
2)xij=(xij-μj)/σj,μj,σj分別為特征xj的均值,標準差,然后xij=tanh(xij);
3)先對xij進行離散化,然后xij=(xij-μj)/σj,μj,σj分別為特征xj的均值,標準差;
4)xij=(xij-μj)/σj,μj,σj分別為特征xj的均值,標準差,剔除xij中的離群值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910274219.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:法律案件深度推理方法
- 下一篇:一種收費站機電設備的智能運維系統及方法





