[發明專利]一種基于醫療美容場景的客戶違約概率預測方法在審
| 申請號: | 201811036983.9 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN109344998A | 公開(公告)日: | 2019-02-15 |
| 發明(設計)人: | 韋虎;李若焱 | 申請(專利權)人: | 盈盈(杭州)網絡技術有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06F17/18;G16H40/20 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310013 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 違約概率 客戶 違約因素 影響客戶 迭代 構建 運算 美容 機器學習算法 客戶基本信息 場景 第三方信息 建立模型 算法預測 影響因素 預測 大類 醫療 存儲 采集 量化 評估 轉化 | ||
1.一種基于醫療美容場景的客戶違約概率預測方法,其特征在于包括如下步驟:
步驟1、用戶違約因素的確認;
步驟2、構建模型進行迭代及運算;
步驟3、效果驗證;
步驟1所述用戶違約因素的確認,具體實現如下:
將影響用戶逾期的特征分為兩大類:基礎信息和第三方數據信息;
1.1基礎信息
基礎信息包括申請人基本數據、申請設備數據以及衍生數據;申請人基本數據是指用戶在申請貸款過程中填寫的個人信息,包括年齡、申請項目金額、手術項目類型、醫療機構信息、借款金額、借款期限、申請地、戶籍地;申請設備數據包括申請設備名稱、系統、版本、設備id;衍生數據包括申請人戶籍地GDP排名、申請地GPD排名、申請地與戶籍地是否一致,具體參看表1;其中身份證戶籍地區、申請地GDP情況是根據該地區于2017年人均GDP的全國排名,將此排名作為特征項加入模型中;
表1 基礎信息
1.2第三方數據信息
①用戶在其他借貸平臺的申請借貸信息,包括個體在其他多個平臺提出的借貸申請或是已借款的相關信息;
②用戶常用APP活躍度信息;
③用戶各類信用評分信息;
基于第三方數據公司獲取用戶群體在其它多個平臺的借貸申請或已借款的相關信息,包括個人信息核查、不良信息掃描、多平臺借貸申請、信貸逾期信息和司法不良記錄,其具體內容如表2:
表2 第三方借貸信息
基于用戶申請時使用的終端設備,借助第三方平臺獲取終端設備相關信息,具體內容如表3:
表3 第三方設備活躍度信息
基于用戶申請注冊用的手機號碼,借助第三方平臺獲取手機號運營商信息,具體內容如表4:
表4 第三方運營商數據信息
基于用戶申請注冊用的姓名、手機和身份證,借助第三方平臺獲取用戶的信用評分信息,具體內容如表5:
表5 第三方數據信用信息
2.根據權利要求1所述的一種基于醫療美容場景的客戶違約概率預測方法,其特征在于步驟2所述的構建模型進行迭代及運算,具體實現如下:
2-1.特征工程:
①清洗異常數據、異常樣本:若采集的數據樣本60%以上的特征數據為空,則剔除該樣本;獲取新的數據集I;
所述的數據樣本是指步驟中采集到的基礎信息或通過第三方采集到的數據信息;
②針對數據集I中的缺失值,采用隨機森林插補法填充,獲取數據集Ⅱ;
③特征篩選:首先將數據集Ⅱ中的所有數據進行IV值計算,將其中IV值小于設定值的數據進行刪除,獲得數據集Ⅲ;
④基于隨機森林學習模型的特征排序(Model based ranking),對數據集Ⅲ進行排序,獲取數據集Ⅳ,對數據集Ⅳ中特征重要性小于0.01的特征刪除,獲取數據集Ⅴ;
⑤最后利用降噪自編碼器對數據集Ⅴ中的數據提取隱含特征;
2-2.構建模型
2-2-1.模型訓練說明
①.基于原始特征和特征工程步成的隱含特征,采用多種特征組合構建模型,通過模型參數的調整最終選擇最優模型;
所述的原始特征包括基礎信息和第三方信息中的特征;
②.將所有樣本的70%作為模型的訓練集,用于模型訓練;30%作為模型的測試集,用于評估模型的訓練結果;
③.利用XGBOOST模型對樣本進行訓練,通過不斷的迭代調參,得到模型的ROC曲線、AUC值和特征重要性;
2-2-2.建模流程:
在booster模型上選擇效果更佳的樹模型,學習目標上采用二分類的邏輯回歸問題,損失函數如下:
公式說明:—表示預測用戶逾期的概率
yi—表示用戶實際是否逾期。
3.根據權利要求2所述的一種基于醫療美容場景的客戶違約概率預測方法,其特征在于步驟3所述的效果驗證,具體實現如下:
3-1.模型采用的評估指標
采用了最常見的AUC和KS值作為模型的評估指標;
3-1-1.AUC值
AUC值其實是ROC曲線下的面積,ROC曲線橫軸是FPR(假陽率),縱軸是TPR(正陽率),這2指標的計算公式如下:
FPR=FP/(FP+TN)
TPR=TP/(TP+FN)
其中:
TP:預測類別是P(正例),真實類別也是P
FN:預測類別是N,真實類別是P
FP:預測類別是P,真實類別是N(反例)
TN:預測類別是N,真實類別也是N
AUC值介于0.1和1之間,AUC作為數值能夠直觀的評價分類器的好壞,值越大越好,計算公式參照如下:
公式說明:
M-正類樣本的數目N-負類樣本的數據
Rank-對預測的score從大到小排序,然后令最大score對應的樣本的rank為n,第二大score對應的樣本的rank為n-1,以此類推;
3-1-2.KS值
KS(洛倫茲曲線)-用于區分預測正負樣本分隔程度的評價指標,計算公式如下:KS=MAX(TPR-FPR);
3-2.模型驗證結果
其主要參數設置如下:
1.learning_rate(學習率):0.09,
2.max_depth(最大樹深):3,
3.n_estimators(迭代輪數):150,
4.gamma(用于控制是否后剪枝的參數):5,
5.reg_lambda(控制模型L2正則化項參數):5,
6.reg_alpha(控制模型L1正則化項參數):5,
7.subsample(訓練模型的子樣本占整個樣本集合的比例):0.8,
8.colsample_bytree(列采樣):0.8
模型表現如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盈盈(杭州)網絡技術有限公司,未經盈盈(杭州)網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811036983.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種城市軌道交通列車節能優化運行方法
- 下一篇:一種徑流概率預報方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





