[發(fā)明專利]提高梯度提升樹模型的特征值作用和防止過擬合的方法在審
| 申請?zhí)枺?/td> | 201910274219.3 | 申請日: | 2019-04-08 |
| 公開(公告)號: | CN110232448A | 公開(公告)日: | 2019-09-13 |
| 發(fā)明(設(shè)計)人: | 楊萃;黃曉鴻 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 何淑珍;江裕強(qiáng) |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 擬合 離散化 分裂點 樹模型 決策樹模型 人工智能 大數(shù)定理 輸出目標(biāo) 輸入特征 損失函數(shù) 圖像識別 語音識別 真實分布 權(quán)重和 偏置 應(yīng)用 篩選 預(yù)測 廣告 表現(xiàn) | ||
本發(fā)明公開了提高梯度提升樹模型的特征值作用和防止過擬合的方法。本發(fā)明通過將離散化前特征值添加到損失函數(shù)中,最終得到最佳分裂點及特征值權(quán)重和偏置,進(jìn)一步盡可能多地利用離散化前的數(shù)據(jù)。對于輸入特征與輸出目標(biāo)相關(guān)性較強(qiáng)的數(shù)據(jù),模型表現(xiàn)性能相對于梯度提升樹有較大的提升;本發(fā)明還給出了一種t分布防止過擬合方式,通過大數(shù)定理篩選分裂點,在實際應(yīng)用中可以通過該方式找到更加準(zhǔn)確的分裂點,防止過擬合。本發(fā)明解決了梯度決策樹模型只考慮特征值離散化后的大小,而不會考慮離散化前特征值數(shù)值的真實分布以及過擬合問題。本發(fā)明可廣泛應(yīng)用于廣告預(yù)測、人工智能、圖像識別、語音識別等各個方面。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)算法模型,具體涉及一種解決梯度提升樹模型對特征值數(shù)值不敏感的問題,同時添加新的防止模型過擬合的方法。
背景技術(shù)
隨著大數(shù)據(jù)的迅速發(fā)展,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于廣告預(yù)測、人工智能、圖像識別、語音識別等各個方面。梯度提升樹算法相比于其他的機(jī)器學(xué)習(xí)模型算法具有一定的優(yōu)越性。首先梯度提升樹訓(xùn)練速度快,其次可以從訓(xùn)練好的模型中分析各個特征的重要性及相互關(guān)系,進(jìn)一步提取新特征。
然而,現(xiàn)在已有的梯度提升樹算法如XGBoost,Lightgbm等在使用中存在著制約其發(fā)展的根本問題,即梯度提升樹只考慮特征值離散化后的大小,而不會考慮離散化前特征值數(shù)值的真實分布。在構(gòu)建梯度提升樹時,梯度提升樹模型會先將特征值(連續(xù)值)分割成各個離散值,然后從各個離散的值中尋找分裂點,在這個過程當(dāng)中,模型只考慮特征值離散化后的大小,這種方式會使得模型在對數(shù)據(jù)進(jìn)行離散化后就損失數(shù)據(jù)的部分信息,例如,當(dāng)某特征值大小為:0.1,0.2,0.3,0,4,0.5,0.5,0.5,1.6,1.7,1.8,當(dāng)對特征值離散化時,假設(shè)分割點個數(shù)為2,可以找到分裂點為:0.45,0.55,從而特征值離散化為: 0,0,0,0,1,1,1,2,2,2。在這個過程中,梯度提升樹只關(guān)心離散化后的值,而忽略了其離散化前數(shù)據(jù)的真實分布。
本改進(jìn)模型也需要對數(shù)據(jù)進(jìn)行離散化,但在對數(shù)據(jù)離散化后會進(jìn)一步盡可能多地利用離散化前的數(shù)據(jù),盡可能多地利用該部分損失的信息。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決現(xiàn)有技術(shù)存在的上述不不足,提供了一種提高梯度提升樹模型的特征值作用和防止過擬合的方法。
本發(fā)明解決上述問題所采用的技術(shù)方案如下。
一種提高特征值作用和防止過擬合的梯度提升樹模型,具體包括以下步驟:
步驟1:對樣本集D確定模型的輸入特征xij和輸出變量yi,其中i表示第i個樣本,j表示第j個特征,假定樣本個數(shù)為n,特征值個數(shù)為m。定義損失函數(shù),損失函數(shù)可選為logloss 或MSE,但不限于此。
步驟2:對特征值xij進(jìn)行歸一化。
步驟3:對預(yù)測值初始化為yi的平均值
步驟4:對特征值xij離散化得出所有的分裂點,分裂點個數(shù)為s。
步驟5:計算輸入樣本的一階偏導(dǎo)gi和二階偏導(dǎo)hi。
步驟6:在第k個葉子節(jié)點上(如果k為0,D0=D),對于每一個分裂點,該葉子節(jié)點的樣本Dk會預(yù)分裂為左樣本L和右樣本R,其中L+R=Dk,遍歷所有分裂點,計算左樣本 L和右樣本R的所有特征值的特征值權(quán)重w1、特征值偏置w2及對應(yīng)的分裂增益gain。此時會得到s份左樣本L和右樣本R,s×m個特征值權(quán)重w1、特征值偏置w2及對應(yīng)的分裂增益 gain。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910274219.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 熱電聯(lián)供電網(wǎng)中風(fēng)電電量消納能力的評估方法
- 一種基于離散化模型的網(wǎng)絡(luò)擁塞控制方法
- 一種基于信息熵的遙感影像特征離散化方法及系統(tǒng)
- 一種離散化小波變換族的上下界準(zhǔn)確估計及框架判定方法
- 變量離散化的評價方法、裝置、存儲介質(zhì)及電子設(shè)備
- 數(shù)據(jù)離散化方法、裝置和服務(wù)器
- 一種頻率跟隨數(shù)字離散濾波器、實現(xiàn)方法及其應(yīng)用
- 用于光線追蹤指令處理和執(zhí)行的裝置和方法
- 用于光線追蹤指令處理和執(zhí)行的裝置和方法
- 一種通過將連續(xù)特征離散化預(yù)測程序TAD的控制方法及裝置
- 一種基于需求簇構(gòu)建軟件產(chǎn)品特征樹模型的方法
- 一種基于事件樹的序列和后果分析的故障判斷系統(tǒng)及方法
- 限定精度損失下水電站群隨機(jī)規(guī)劃模型模式樹裁枝方法
- 展示預(yù)測模型的方法、裝置及調(diào)整預(yù)測模型的方法、裝置
- 數(shù)據(jù)處理方法和裝置
- 展示預(yù)測模型的方法、裝置及調(diào)整預(yù)測模型的方法、裝置
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備和計算機(jī)可讀存儲介質(zhì)
- 一種具有模型樹的沙盤
- 一種ICS的網(wǎng)絡(luò)數(shù)據(jù)檢測方法及裝置
- 基于遺傳算法和決策樹的健康狀況預(yù)測方法





