[發(fā)明專利]一種針對在線預(yù)測任務(wù)的GBDT學(xué)習(xí)方法有效
| 申請?zhí)枺?/td> | 202011187707.X | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112200316B | 公開(公告)日: | 2022-07-15 |
| 發(fā)明(設(shè)計)人: | 林志賢;莊躍生;張永愛;周雄圖;林珊玲 | 申請(專利權(quán))人: | 福州大學(xué) |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N5/00 |
| 代理公司: | 福州元創(chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 錢莉;蔡學(xué)俊 |
| 地址: | 362251 福建省泉州市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 在線 預(yù)測 任務(wù) gbdt 學(xué)習(xí)方法 | ||
1.一種針對在線預(yù)測任務(wù)的GBDT學(xué)習(xí)方法,其特征在于,將數(shù)據(jù)集進(jìn)行預(yù)處理,篩選符合決策樹模型訓(xùn)練的數(shù)據(jù)特征,并輸入單棵決策樹中訓(xùn)練,利用Hyperband算法對決策樹模型的超參數(shù)進(jìn)行微調(diào),根據(jù)分類準(zhǔn)確率得出最佳超參數(shù),之后重新訓(xùn)練決策樹模型聚類輸出對應(yīng)的葉子索引;利用兩層全連接層將高維稀疏的葉子索引向量嵌入成低維密集向量,再利用深度神經(jīng)網(wǎng)絡(luò)擬合低維密集向量,從而完成單棵決策樹模型蒸餾為神經(jīng)網(wǎng)絡(luò)的過程;最后將GBDT多棵決策樹隨機劃分多組,每組決策樹輸出的葉子索引向量進(jìn)行拼接,同組決策樹用相同神經(jīng)網(wǎng)絡(luò)擬合拼接后葉子索引的低維密集向量,重復(fù)多組樹的訓(xùn)練,使GBDT完整蒸餾構(gòu)造為神經(jīng)網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的一種針對在線預(yù)測任務(wù)的GBDT學(xué)習(xí)方法,其特征在于,所述將數(shù)據(jù)集進(jìn)行預(yù)處理,篩選符合決策樹模型訓(xùn)練的數(shù)據(jù)特征,并輸入單棵決策樹中訓(xùn)練具體為:
將輸入數(shù)據(jù)根據(jù)特征類型劃分為類別特征部分和數(shù)值特征部分,將類別特征按照編碼方式轉(zhuǎn)化為獨熱編碼;設(shè)定缺失值數(shù)量的閾值,篩選數(shù)據(jù)集中符合該閾值的數(shù)據(jù)特征;再將清洗后數(shù)據(jù)輸入決策樹模型訓(xùn)練,根據(jù)信息增益的計算,劃分樹模型內(nèi)部節(jié)點直到葉子節(jié)點處輸出對應(yīng)的聚類結(jié)果。
3.根據(jù)權(quán)利要求1所述的一種針對在線預(yù)測任務(wù)的GBDT學(xué)習(xí)方法,其特征在于,所述利用Hyperband算法對決策樹模型的超參數(shù)進(jìn)行微調(diào),根據(jù)分類準(zhǔn)確率得出最佳超參數(shù),之后重新訓(xùn)練決策樹模型聚類輸出對應(yīng)的葉子索引具體為:
用Hyperband算法對決策樹模型調(diào)參,根據(jù)總預(yù)算資源B和預(yù)設(shè)超參數(shù)組數(shù)n,則每組超參數(shù)分配資源B/n,反復(fù)迭代訓(xùn)練決策樹模型,每次訓(xùn)練淘汰固定比例η的超參數(shù)組,余下超參數(shù)組分配最大預(yù)算表示為r:
r=Rη-S
式中,s表示控制預(yù)算大小,其中模型迭代次數(shù)表示為(0,....s);R表示每組超參數(shù)組合可分配最多資源;
每次訓(xùn)練淘汰一批超參數(shù)組,可分配預(yù)算r隨之增加,最后得到一組能夠分配整部分預(yù)算資源r超參數(shù),使決策樹模型聚類準(zhǔn)確率最佳;
利用調(diào)參后的決策樹模型輸出葉子索引L。
4.根據(jù)權(quán)利要求1所述的一種針對在線預(yù)測任務(wù)的GBDT學(xué)習(xí)方法,其特征在于,所述利用兩層全連接層將高維稀疏的葉子索引向量嵌入成低維密集向量,再利用深度神經(jīng)網(wǎng)絡(luò)擬合低維密集向量,從而完成單棵決策樹模型蒸餾為神經(jīng)網(wǎng)絡(luò)的過程具體為:
利用參數(shù)為Wt的兩層全連接網(wǎng)絡(luò)擬合葉子索引L,輸出低維密集向量表示為H:
H(L,Wt);
用深度神經(jīng)網(wǎng)絡(luò)N擬合葉子索引L對應(yīng)葉子值P,進(jìn)一步對H優(yōu)化,其中低維密度向量優(yōu)化過程的損失函數(shù)表示為:
minLoss(N(wTH+w0),p);
式中,式中Loss表示損失函數(shù),wT和w0為映射H到P的神經(jīng)網(wǎng)絡(luò)N的參數(shù),p表示葉子值;在目標(biāo)函數(shù)minLoss(N(wTH+w0),p)收斂情況下,完成葉子索引L到低維向量H的映射,減少輸出葉子節(jié)點個數(shù),得到優(yōu)化后的低維向量H;
用DNN擬合優(yōu)化后的低維向量H,擬合過程的目標(biāo)函數(shù)表示為:
minLoss_D(DNN(x;θ),H);
式中x是神經(jīng)網(wǎng)絡(luò)DNN輸入的數(shù)據(jù)特征,與決策樹訓(xùn)練所輸入的特征一致,都是經(jīng)過特征選擇過程得到的,θ為DNN的網(wǎng)絡(luò)參數(shù),Loss_D是交叉熵?fù)p失函數(shù);
訓(xùn)練DNN直至Loss_D(DNN(x;θ),H)達(dá)到收斂,完成單棵樹蒸餾為神經(jīng)網(wǎng)絡(luò)的過程。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011187707.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于呈現(xiàn)在線實體在線狀態(tài)的系統(tǒng)和方法
- 提供web服務(wù)接入的在線系統(tǒng)和方法
- 定制在線圖標(biāo)
- 一種水質(zhì)在線檢測預(yù)處理裝置
- 在線測試學(xué)習(xí)方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- 一種在線文檔的分頁方法、裝置、設(shè)備以及可讀介質(zhì)
- 一種基于web在線學(xué)習(xí)的資源訪問平臺
- 一種在線學(xué)習(xí)系統(tǒng)
- 在線文檔提交方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 空調(diào)冷媒量確定方法、系統(tǒng)和可讀存儲介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時間序列預(yù)測模型適用性量化的預(yù)測模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測方法及裝置、預(yù)測模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測的方法及裝置
- 圖像預(yù)測方法及裝置、電子設(shè)備和存儲介質(zhì)
- 文本預(yù)測方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)





