[發明專利]基于GBDT高階特征組合的推薦方法、裝置及存儲介質在審
| 申請號: | 202010880908.1 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN112035453A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 陳宏斌;孫立博 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06F16/27;G06K9/62 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 王迎;袁文婷 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 gbdt 特征 組合 推薦 方法 裝置 存儲 介質 | ||
1.一種基于GBDT高階特征組合的推薦方法,其特征在于,所述方法包括:
構建建模寬表,并對所述建模寬表中的待處理數據進行預處理,以確定訓練數據;其中,所述待處理數據包括用戶因子數據和物品因子數據;
基于所述訓練數據對GBDT模型進行訓練,以形成推薦模型;
基于所述推薦模型獲取所述待處理數據的可解釋性的交叉特征;
對所述交叉特征進行分析處理,獲取對應的特征排序;
基于所述特征排序進行預測推薦。
2.如權利要求1所述的基于GBDT高階特征組合的推薦方法,其特征在于,
所述用戶因子數據包括:用于在APP上的操作行為、用戶自身的基本信息以及用戶歷史信息;
所述物品因子數據包括:物品的價格、類別以及銷量。
3.如權利要求1所述的基于GBDT高階特征組合的推薦方法,其特征在于,所述待處理數據存儲于區塊鏈中,對所述建模寬表中的待處理數據進行預處理的過程包括:
使用Python對所述待處理數據做清洗和缺失值填充;
對清洗完及缺失值填充后的數據做單變量分析,剔除異常或區別度、飽和度低于預設值的因子,以確定所述訓練數據。
4.如權利要求1所述的基于GBDT高階特征組合的推薦方法,其特征在于,基于所述訓練數據對GBDT模型進行訓練的過程包括:
采用LightGBM的GBDT模型作為基礎模型;
設定所述基礎模型的最大樹深度、最大葉子節點數、最小葉子節點數、特征采樣率以及樣本采樣率,已形成訓練模型;
獲取訓練數據在所述訓練模型中的每一個樹所對應的葉子節點的編號;
對所述編號進行獨熱編碼,以實現對所述GBDT模型的訓練。
5.如權利要求1所述的基于GBDT高階特征組合的推薦方法,其特征在于,所述基于所述推薦模型獲取所述待處理數據的可解釋性的交叉特征的過程包括:
通過第一算法對所述推薦模型進行解析,獲取每個葉子節點對應的高階交叉特征;
通過第二算法獲取與所述高階交叉特征對應的可解釋性的交叉特征。
6.如權利要求5所述的基于GBDT高階特征組合的推薦方法,其特征在于,所述第一算法包括:
預訓練所述推薦模型的GBDT模型;
將原始特征向量輸入所述GBDT模型中,對葉子節點進行獨熱編碼,獲取與每個原始特征向量相對應的一串GBDT編碼;
將編碼后的GBDT向量作為所述GBDT模型的輸入,訓練獲取所述高階交叉特征。
7.如權利要求5所述的基于GBDT高階特征組合的推薦方法,其特征在于,所述第二算法包括:
步驟一:獲取所述推薦模型的GBDT的一顆決策樹,并將指針指向該決策樹的節點;其中,所述指針為保存變量地址的變量;
步驟二:判斷所述節點是否為葉子節點;如果所述節點不是葉子節點,則將節點代表的特征壓入棧,否則,則存儲整堆棧當前的交叉特征數據,然后保存葉子對應的樣本量、信息增益信息,并且壓入一個空值;
步驟三:將所述指針指向所述節點的左子樹,并且重復執行所述步驟二,直至所有的左子樹都被遍歷,推出棧頂的數據;同時,
將所述指針指向所述節點的右子樹,并且重復執行所述步驟二,直至所有的右子樹都被遍歷,推出棧頂的數據;
步驟四:返回所述步驟二中保存的所有數據,該所有數據即為該決策樹的所有可解釋性的交叉特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010880908.1/1.html,轉載請聲明來源鉆瓜專利網。





