[發明專利]一種基于大數據金融的違約用戶風險預測方法在審
| 申請號: | 201810960445.2 | 申請日: | 2018-08-22 |
| 公開(公告)號: | CN109034658A | 公開(公告)日: | 2018-12-18 |
| 發明(設計)人: | 王進;余薇;孫開偉;歐陽衛華;鄧欣;陳喬松;李智星;胡峰;雷大江 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q40/00 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 李金蓉 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器學習模型 用戶歷史數據 風險預測 特征選擇 大數據 用戶歷史行為數據 預處理 歷史行為數據 訓練集數據 驗證集數據 預處理操作 工程操作 金融領域 歷史行為 模型融合 提取特征 消費行為 樣本集 預測 風控 構建 金融 互聯網 人群 分析 服務 | ||
1.一種基于大數據金融的違約用戶風險預測方法,其特征在于,包括以下步驟:
步驟101、對用戶的歷史行為數據進行預處理操作,包括異常值處理、缺失值的多維度處理、離群點剔除、空格符處理和城市名處理;
步驟102、根據歷史行為數據劃分訓練集數據和驗證集數據;
步驟103、對用戶歷史數據進行特征工程操作,包括構建基礎特征、時序特征、業務特征、組合特征和GBDT離散特征;
步驟104、對構建特征完成的樣本集,采用基于學習模型的特征排序方法進行特征選擇;
步驟105、建立若干機器學習模型,并進行模型融合;
步驟106、通過建立的模型,根據用戶歷史行為數據對用戶在未來一個月是否會逾期還款進行預測。
2.根據權利要求1所述一種基于大數據金融的違約用戶風險預測方法,其特征在于:步驟101所述異常值處理為將異常值置空,并選取一年為一個時間周期,按公式(1)計算的值進行填充;首先將樣本按升序排序,N為數據總數,x(i)表示樣本值大小排序為i的值,M為數據集中該缺失值的填充值:
所述缺失值的多維度處理:按屬性列統計缺失值個數,進一步得到各列的缺失比率,按公式(2)對數據進行多維度處理,其中xi為數據集中某屬性列缺失值個數,Count為樣本集總數,MissRatei為數據集中該屬性列缺失率:
所述離群點剔除:按行統計每個樣本的屬性缺失值個數,將缺失值個數從大到小排序,缺失值個數排序top5%的這部分樣本被認定為離群點,將離群點剔除;
所述空格符處理:刪除屬于同一種取值中的空格符。
3.根據權利要求1所述一種基于大數據金融的違約用戶風險預測方法,其特征在于:步驟103所述基礎特征:在用戶歷史消費數據中用戶信譽等級、用戶貸款額度、用戶個人信息特征,其中連續型的屬性首先直接作為特征處理;而對于不連續的屬性,采取獨熱編碼,將獨熱編碼后的特征矩陣使用csr_matrix的稀疏存儲方式,不影響特征性能的情況下降低特征維數;
所述時序特征:針對時間的字段,直接將其當做連續值特征,統計當前時間與用戶注冊時間、生日時間、貸款時間、消費時間、瀏覽時間差值;或另一種是離散化處理構建特征,每10天作為一個區間,按公式(3)進行離散處理,其中,Datei表示第i天的日期離散值,i取值為0-30:
所述業務特征:在用戶歷史消費數據中用戶貸款次數、訂單金額、訂單計數、用戶貸款信用級別、用戶貸款額度、用戶貸款比率;
所述組合特征:xgboost模型訓練完成后輸出特征的重要性,使用其中top50特征構建組合特征;
所述GBDT離散特征:用已有特征訓練GBDT模型,然后利用GBDT模型學習到的樹來構造新特征,最后把這些新特征加入原有特征一起訓練XGB、RF算法基模型;構造的新特征向量是取值0或1的,向量每個元素對應于GBDT模型中樹的葉子結點;新特征向量的長度等于GBDT模型里所有樹包含的葉子結點數之和;最終生成需要的GBDT離散特征。
4.根據權利要求3所述一種基于大數據金融的違約用戶風險預測方法,其特征在于:所述訂單計數包括按早中晚、工作日和周末、半夜、星期的粒度分別提取。
5.根據權利要求3所述一種基于大數據金融的違約用戶風險預測方法,其特征在于:所述使用xgboost模型輸出的top50特征構建組合特征包括:將特征兩兩相除得到2000個特征,然后使用xgboost對這2000個特征單獨訓練模型,訓練完成后得到特征重要性的排序,將這500個特征添加到原始特征體系中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810960445.2/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





