[發(fā)明專(zhuān)利]基于GBDT高階特征組合的推薦方法、裝置及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010880908.1 | 申請(qǐng)日: | 2020-08-27 |
| 公開(kāi)(公告)號(hào): | CN112035453A | 公開(kāi)(公告)日: | 2020-12-04 |
| 發(fā)明(設(shè)計(jì))人: | 陳宏斌;孫立博 | 申請(qǐng)(專(zhuān)利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類(lèi)號(hào): | G06F16/215 | 分類(lèi)號(hào): | G06F16/215;G06F16/2458;G06F16/27;G06K9/62 |
| 代理公司: | 北京鴻元知識(shí)產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 王迎;袁文婷 |
| 地址: | 518033 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 gbdt 特征 組合 推薦 方法 裝置 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,揭露一種基于GBDT高階特征組合的推薦方法,包括:構(gòu)建建模寬表,并對(duì)建模寬表中的待處理數(shù)據(jù)進(jìn)行預(yù)處理,以確定訓(xùn)練數(shù)據(jù);其中,待處理數(shù)據(jù)包括用戶(hù)因子數(shù)據(jù)和物品因子數(shù)據(jù);基于訓(xùn)練數(shù)據(jù)對(duì)GBDT模型進(jìn)行訓(xùn)練,以形成推薦模型;基于推薦模型獲取待處理數(shù)據(jù)的可解釋性的交叉特征;對(duì)交叉特征進(jìn)行分析處理,獲取對(duì)應(yīng)的特征排序;基于特征排序進(jìn)行預(yù)測(cè)推薦。本發(fā)明還涉及區(qū)塊鏈技術(shù),待處理數(shù)據(jù)存儲(chǔ)于區(qū)塊鏈中。本發(fā)明可以提高基于GBDT高階特征組合的推薦效率及準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,尤其涉及一種基于GBDT高階特征組合的推薦的方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
特征組合也叫特征交叉,是特征工程中的一種特征生成方式,除了一般對(duì)于連續(xù)型特征的加減乘除生成新的特征以外,還可以對(duì)多個(gè)特征(連續(xù)特征離散化)進(jìn)行組合,這里的離散化的特征需要進(jìn)行一定的分析,離散規(guī)劃且合理,形成新的特征。
在推薦領(lǐng)域,為了提高推薦預(yù)測(cè)的準(zhǔn)確性,時(shí)常需要通過(guò)構(gòu)造組合特征來(lái)表達(dá)更強(qiáng)的區(qū)分能力,常見(jiàn)的組合特征有單特征交叉、二階特征交叉、高階特征交叉等方式。在得到組合特征之后,即可通過(guò)組合特征的相關(guān)指標(biāo)挖掘出學(xué)習(xí)目標(biāo)重要的數(shù)據(jù)。
目前,傳統(tǒng)的特征組合方法主要包括窮舉法、基于規(guī)則的組合法以及基于模型的二階特征組合法等,其中的窮舉法在特征數(shù)量較大時(shí),容易導(dǎo)致高階交叉后的特征組合數(shù)量呈指數(shù)增長(zhǎng),難以窮舉。基于規(guī)則的組合法對(duì)規(guī)則的設(shè)計(jì)要求很高,需要對(duì)業(yè)務(wù)有深刻理解,存在耗費(fèi)大量人力和時(shí)間,并且基于構(gòu)造范式的特征組合依然存在面臨指數(shù)爆炸,難以窮舉的問(wèn)題。而基于模型的二階特征組合法僅適用于二階交叉特征的挖掘,適用范圍受限。
發(fā)明內(nèi)容
本發(fā)明提供一種基于GBDT高階特征組合的推薦方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其主要目的在于提高基于GBDT高階特征組合的推薦效率及準(zhǔn)確度。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種基于GBDT高階特征組合的推薦方法,包括:
構(gòu)建建模寬表,并對(duì)所述建模寬表中的待處理數(shù)據(jù)進(jìn)行預(yù)處理,以確定訓(xùn)練數(shù)據(jù);其中,所述待處理數(shù)據(jù)包括用戶(hù)因子數(shù)據(jù)和物品因子數(shù)據(jù);
基于所述訓(xùn)練數(shù)據(jù)對(duì)GBDT模型進(jìn)行訓(xùn)練,以形成推薦模型;
基于所述推薦模型獲取所述待處理數(shù)據(jù)的可解釋性的交叉特征;
對(duì)所述交叉特征進(jìn)行分析處理,獲取對(duì)應(yīng)的特征排序;
基于所述特征排序進(jìn)行預(yù)測(cè)推薦。
可選地,所述用戶(hù)因子數(shù)據(jù)包括:用于在APP上的操作行為、用戶(hù)自身的基本信息以及用戶(hù)歷史信息;
所述物品因子數(shù)據(jù)包括:物品的價(jià)格、類(lèi)別以及銷(xiāo)量。
可選地,所述待處理數(shù)據(jù)存儲(chǔ)于區(qū)塊鏈中,對(duì)所述建模寬表中的待處理數(shù)據(jù)進(jìn)行預(yù)處理的過(guò)程包括:
使用Python對(duì)所述待處理數(shù)據(jù)做清洗和缺失值填充;
對(duì)清洗完及缺失值填充后的數(shù)據(jù)做單變量分析,剔除異常或區(qū)別度、飽和度低于預(yù)設(shè)值的因子,以確定所述訓(xùn)練數(shù)據(jù)。
可選地,基于所述訓(xùn)練數(shù)據(jù)對(duì)GBDT模型進(jìn)行訓(xùn)練的過(guò)程包括:
采用LightGBM的GBDT模型作為基礎(chǔ)模型;
設(shè)定所述基礎(chǔ)模型的最大樹(shù)深度、最大葉子節(jié)點(diǎn)數(shù)、最小葉子節(jié)點(diǎn)數(shù)、特征采樣率以及樣本采樣率,已形成訓(xùn)練模型;
獲取訓(xùn)練數(shù)據(jù)在所述訓(xùn)練模型中的每一個(gè)樹(shù)所對(duì)應(yīng)的葉子節(jié)點(diǎn)的編號(hào);
對(duì)所述編號(hào)進(jìn)行獨(dú)熱編碼,以實(shí)現(xiàn)對(duì)所述GBDT模型的訓(xùn)練。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010880908.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 信用評(píng)價(jià)方法和裝置以及梯度漸進(jìn)決策樹(shù)參數(shù)調(diào)整方法和裝置
- 模型訓(xùn)練方法、廣告推薦方法、相關(guān)裝置、設(shè)備及介質(zhì)
- 在線GBDT模型學(xué)習(xí)方法及裝置
- 一種基于Bagging-Fuzzy-GBDT算法的心臟病預(yù)測(cè)方法
- 一種基于GBDT-INSGAII的EAS聲磁系統(tǒng)標(biāo)簽識(shí)別算法
- 一種基于GBDT的藥品患者使用人數(shù)的預(yù)測(cè)方法及系統(tǒng)
- 基于GBDT算法的評(píng)分卡模型的建模方法及其系統(tǒng)
- 一種基于非線性集成模型的預(yù)測(cè)數(shù)據(jù)錯(cuò)誤風(fēng)險(xiǎn)方法
- 一種基于GBDT模型的水質(zhì)特征礦泉水分類(lèi)方法
- 評(píng)分卡模型構(gòu)建方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





