[發明專利]基于不平衡數據處理的信貸風險評估方法與系統在審
| 申請號: | 202011565846.1 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112634022A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 何涇沙;張宇晗;朱娜斐;夏新宇;宜裕紫;潘世佳;靳姝婷 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02;G06N20/00 |
| 代理公司: | 北京匯信合知識產權代理有限公司 11335 | 代理人: | 林聰源 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 不平衡 數據處理 信貸風險 評估 方法 系統 | ||
1.一種基于不平衡數據處理的信貸風險評估方法,其特征在于,包括:
在接收到用戶通過客戶端發起的申請信貸請求時,獲取所述用戶填寫的客戶信息;
根據所述客戶信息,獲取所述用戶的信用數據中的特征變量;
將所述特征變量輸入訓練完成的基于不平衡數據處理的信貸風險評估模型;
根據所述信貸風險評估模型輸出的預測結果,判斷是否通過所述用戶的信貸請求,并將判斷結果返回至所述客戶端。
2.根據權利要求1所述的基于不平衡數據處理的信貸風險評估方法,其特征在于,所述基于不平衡數據處理的信貸風險評估模型的訓練方法包括:
獲取客戶信用數據樣本集,并對所述信用數據樣本集進行數據清洗;
利用隨機森林方法對數據清洗后的所述信用數據樣本集進行特征篩選,獲得特征數據集;
利用不平衡數據處理方法對所述特征數據集進行類別平衡,得到訓練數據集;
基于邏輯回歸算法和xgboost機器學習算法構建集成分類器;
將所述訓練數據集輸入所述集成分類器對訓練數據進行機器學習,在損失函數達到最小值時得到訓練完成的所述信貸風險評估模型。
3.根據權利要求2所述的基于不平衡數據處理的信貸風險評估方法,其特征在于,所述利用不平衡數據處理方法對所述特征數據集進行類別平衡的具體過程包括:
針對所述特征數據集計算多數類樣本中心和少數類樣本中心;
為靠近所述多數類樣本中心的父樣本增加過采樣權重;
選取靠近所述少數類樣本中心的近鄰樣本作為過采樣的輔助樣本;
根據每個所述父樣本的過采樣數量,在所述父樣本和所述輔助樣本之間插值生成相應數量的新樣本,并將所述新樣本與所述特征數據集進行融合,生成均衡后的數據集并輸出。
4.根據權利要求3所述的基于不平衡數據處理的信貸風險評估方法,其特征在于,所述計算多數類樣本中心和少數類樣本中心的具體過程包括:
對所述特征數據集中的數據進行歸一化處理;
將歸一化處理后的所述特征數據集劃分為多數類數據集和少數類數據集;
計算所述多數類數據集的樣本數量、所述少數類數據集的樣本數量以及待生成少數類樣本的個數;
根據所述多數類數據集和樣本數量計算得到多數類樣本中心,根據所述少數類數據集和樣本數量計算得到少數類樣本中心。
5.根據權利要求4所述的基于不平衡數據處理的信貸風險評估方法,其特征在于,所述為靠近所述多數類樣本中心的父樣本增加過采樣權重具體包括:
選取所述少數類數據集中的樣本作為父樣本,并添加至父樣本集合中;
遍歷所述父樣本集合,并計算得到每個所述父樣本到所述多數類樣本中心的歐氏距離;
根據所述歐氏距離計算得到每個所述父樣本的過采樣權重,并添加至權重集合中;
遍歷所述權重集合,根據所述過采樣權重與所述待生成少數類樣本的個數的乘積計算每個所述父樣本的過采樣數量。
6.根據權利要求5所述的基于不平衡數據處理的信貸風險評估方法,其特征在于,所述選取靠近所述少數類樣本中心的近鄰樣本作為過采樣的輔助樣本的具體過程包括:
利用KNN算法獲取所述父樣本的少數類K近鄰集合;
遍歷所述K近鄰集合,計算所述K近鄰集合中每個樣本達到所述少數類樣本中心的歐氏距離,并添加至距離集合中;
對所述距離集合進行由小到大排序,選取所述距離集合中最小的歐氏距離對應的樣本作為輔助樣本。
7.根據權利要求2至6中任一項所述的基于不平衡數據處理的信貸風險評估方法,其特征在于,所述信用數據集包括特征變量和目標變量,所述特征變量為信貸用戶與信用相關的數據,所述目標變量為表征所述信貸用戶是否違約的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011565846.1/1.html,轉載請聲明來源鉆瓜專利網。





