[發明專利]一種基于Stacking集成學習的網貸回頭客預測的方法在審
| 申請號: | 202110026408.6 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112700325A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 張濤;秦立力 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02;G06Q30/02;G06N20/20 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 stacking 集成 學習 回頭客 預測 方法 | ||
1.一種基于Stacking集成學習的網貸回頭客預測的方法,其特征在于:包括,步驟1:數據采集;收集已貸款用戶的相關數據,包含四個維度的數據;用戶基本信息數據、用戶的消費信息數據、用戶的行為標簽數據、用戶社交關系數據;以及最終該用戶是否進行了二次貸款作為目標標簽;
步驟2:數據處理;用戶的相關數據可能由于填寫有誤或者數據丟失,導致存在缺失值以及錯誤值,需要對于獲取到的四個維度的相關數據進行缺失值處理、異常值剔除;缺失值采用補0,中位數方式進行;對于類別型數據,進行One-Hot編碼;最后,將處理后的標準化數據集劃分為訓練集和測試集;
步驟3:特征提取;使用皮爾森相關系數剔除無關特征,結合XGBoost,隨機森林算法進行特征提取,減少無關特征的數量,提高模型的訓練效率,降低噪音;最終獲得模型的輸入數據;
步驟4:模型訓練;Stacking方法包含兩層模型,第一層的初級學習器分別使用CatBoost、XGBoost、RF進行獨立訓練,將訓練得到的預測結果也作為特征加入訓練集,第二層使用XGBoost作為次級學習器來進行模型融合,對第一層的模型輸出作為數據進行訓練,得到最終的模型,對結果進行預測。
2.根據權利要求1所述的一種基于Stacking集成學習的網貸回頭客預測的方法,其特征在于:對于已貸款用戶,收集用戶在本貸款平臺的相關數據,大致分為4個緯度;其中,用戶的基本信息數據指用戶提交的基本信息;用戶消費信息包含用戶上期賬單金額、上期還款金額、信用卡額度、本期賬單余額;用戶行為標簽數據包含用戶的行為標簽,根據用戶在貸款平臺的行為設計為幾種類別,用于將用戶的行為進行評價分類;用戶社交關系包含用戶與同平臺用戶之間的聯系。
3.根據權利要求1所述的一種基于Stacking集成學習的網貸回頭客預測的方法,其特征在于:對于數值范圍跨度大的連續型變量,需要將變量的值同等變換到相同尺度下,做歸一化處理;
歸一化處理采用0均值標準化;其公式為:
其中,x表示數據原始值,x′表示歸一化處理后的值,σ表示該列數據的標準差,mean代表該列數據的均值;
極個別數值跨度非常大的變量做歸一化并不合適,取值在0~1000000范圍的變量,對于這些數據采取Log變換的方式來處理,具體如下:
value′=log2(value+1)
其中value指該數據的原始值,value′指變換后的值;
非數值型變量采用One-Hot編碼方式;對于肉眼可觀測到的異常值,采取刪除記錄的方式進行處理。
4.根據權利要求1所述的一種基于Stacking集成學習的網貸回頭客預測的方法,其特征在于:XGBoost進行特征重要性評估有五種方式:
‘weight’:權重形式,表示在所有樹中,一個特征在分裂節點時被使用了多少次;
‘gain’:增益形式,表示在所有樹中,一個特征作為分裂節點存在時,帶來的增益的平均值;
‘cover’:覆蓋度,表示在所有樹中,一個特征作為分裂節點存在時,覆蓋的樣本數量的平均值;
‘total_gain’:相對于’gain’,這里表示的是帶來的總增益大小;
‘total_cover’:相對于’cover’,這里表示的是覆蓋的總樣本數量;
其中weight把某個特征在所有樹中被使用的次數統計了出來,認為這樣的特征相比于其他特征更加重要,故選擇weight方式;
經過數據清洗,降維后,得到模型的輸入數據,采用隨機抽樣,按照比例將數據集劃分為訓練集D和測試集T。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110026408.6/1.html,轉載請聲明來源鉆瓜專利網。





