[發明專利]一種基于深度學習的信用評分集成分類系統和方法在審
| 申請號: | 201910715438.0 | 申請日: | 2019-08-05 |
| 公開(公告)號: | CN110580268A | 公開(公告)日: | 2019-12-17 |
| 發明(設計)人: | 侯榆青;賀心畋;賀小偉;王賓;李思奇;王文強;張翔 | 申請(專利權)人: | 西北大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06N3/04;G06Q10/04;G06Q40/02 |
| 代理公司: | 61216 西安恒泰知識產權代理事務所 | 代理人: | 王芳 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 子單元 集成分類 信用 循環神經網絡 樣本訓練集 客戶信用 訓練單元 樣本測試 樣本數據 概率 預測 數據預處理 預處理單元 并行集成 邏輯回歸 數據獲取 投票單元 信用數據 學習算法 多樣性 投票 應用 學習 | ||
1.一種基于深度學習的信用評分集成分類系統,其特征在于,包括數據獲取及預處理單元、集成分類訓練單元和投票單元;
所述數據獲取及預處理單元用于獲取信用數據集,并對信用數據集進行數據預處理得到樣本數據集,將樣本數據集分為樣本訓練集和樣本測試集;
所述集成分類訓練單元包括RNN子單元、LR子單元和XGBoost子單元,所述集成分類訓練單元用于將數據獲取及預處理單元得到的樣本訓練集分別通過RNN子單元、LR子單元和XGBoost子單元進行訓練,獲得樣本測試集分別通過每個子單元得到的預測信用概率;
所述投票單元用于對集成分類訓練單元獲得的三個預測信用概率進行多數投票,若兩個或以上的預測信用概率高于0.5則客戶信用良好,否則客戶信用不良。
2.如權利要求1所述的基于深度學習的信用評分集成分類系統,其特征在于,所述信用數據集包含客戶的個人屬性值,包括性別、信用記錄、支票賬號狀況、婚姻情況、工作情況、信貸目的和財產情況。
3.如權利要求2所述的基于深度學習的信用評分集成分類系統,其特征在于,所述數據獲取及預處理單元包括數據獲取子單元和預處理子單元,所述預處理子單元包括缺失值補充模塊、虛擬變量定義模塊和歸一化模塊,所述缺失值補充模塊用于通過均值插補的方法補充個人屬性值的缺失值,所述虛擬變量定義模塊用于將個人屬性值中的字母轉換為數字,所述歸一化模塊用于對個人屬性值進行歸一化處理。
4.如權利要求1所述的基于深度學習的信用評分集成分類系統,其特征在于,所述RNN子單元中超參數項設置為:隱藏層神經元數量設置為15,隱藏層數量設置為{3,4},學習速率設置為0.001,批次數量設置為{690,2500},迭代次數設置為{900,1000},丟失率設置為0.2。
5.如權利要求1所述的基于深度學習的信用評分集成分類系統,其特征在于,所述XGBoost子單元中超參數項設置為:Booster項設置為gbtree,學習速率設置為0.03,迭代次數選取為100,樹的最大深度為3,子樣本采樣率為0.7,特征采樣率為0.8。
6.一種基于深度學習的信用評分集成分類方法,其特征在于,包括如下子步驟:
步驟1:獲取信用數據集,并對信用數據集進行數據預處理得到樣本數據集;
步驟2:將樣本數據集分為樣本訓練集和樣本測試集;
步驟3:根據RNN方法、LR方法和XGBoost方法對為樣本訓練集進行訓練,得到集成分類模型,所述集成分類模型包括并行的RNN子模塊、LR子模塊和XGBoost子模塊;
步驟4:獲得樣本測試集分別通過每個子模塊得到的預測信用概率,對三個預測信用概率進行多數投票,若兩個或以上的預測信用概率高于0.5則客戶信用良好,否則客戶信用不良。
7.如權利要求6所述的基于深度學習的信用評分集成分類方法,其特征在于,所述信用數據集包含客戶的個人屬性值,包括性別、信用記錄、支票賬號狀況、婚姻情況、工作情況、信貸目的和財產情況。
8.如權利要求7所述的基于深度學習的信用評分集成分類方法,其特征在于,所述數據預處理包括以下步驟:
步驟a:采取均值插補的方法補充個人屬性值的缺失值;
步驟b:定義虛擬變量,將個人屬性值中的字母轉換為數字;
步驟c:對個人屬性值進行歸一化處理。
9.如權利要求6所述的基于深度學習的信用評分集成分類系統,其特征在于,所述RNN子模塊中超參數項設置為:隱藏層神經元數量設置為15,隱藏層數量設置為{3,4},學習速率設置為0.001,批次數量設置為{690,2500},迭代次數設置為{900,1000},丟失率設置為0.2。
10.如權利要求6所述的基于深度學習的信用評分集成分類系統,其特征在于,所述XGBoost子模塊中超參數項設置為:Booster項設置為gbtree,學習速率設置為0.03,迭代次數選取為100,樹的最大深度為3,子樣本采樣率為0.7,特征采樣率為0.8。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北大學,未經西北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910715438.0/1.html,轉載請聲明來源鉆瓜專利網。





