[發(fā)明專利]一種基于深度學習的信用評分集成分類系統(tǒng)和方法在審
| 申請?zhí)枺?/td> | 201910715438.0 | 申請日: | 2019-08-05 |
| 公開(公告)號: | CN110580268A | 公開(公告)日: | 2019-12-17 |
| 發(fā)明(設計)人: | 侯榆青;賀心畋;賀小偉;王賓;李思奇;王文強;張翔 | 申請(專利權)人: | 西北大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06N3/04;G06Q10/04;G06Q40/02 |
| 代理公司: | 61216 西安恒泰知識產(chǎn)權代理事務所 | 代理人: | 王芳 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 子單元 集成分類 信用 循環(huán)神經(jīng)網(wǎng)絡 樣本訓練集 客戶信用 訓練單元 樣本測試 樣本數(shù)據(jù) 概率 預測 數(shù)據(jù)預處理 預處理單元 并行集成 邏輯回歸 數(shù)據(jù)獲取 投票單元 信用數(shù)據(jù) 學習算法 多樣性 投票 應用 學習 | ||
本發(fā)明公開了一種基于深度學習的信用評分集成分類系統(tǒng)和方法,系統(tǒng)包括,數(shù)據(jù)獲取及預處理單元用于獲取信用數(shù)據(jù)集,并進行數(shù)據(jù)預處理得到樣本數(shù)據(jù)集,將樣本數(shù)據(jù)集分為樣本訓練集和樣本測試集;集成分類訓練單元用于將樣本訓練集分別通過RNN子單元、LR子單元和XGBoost子單元進行訓練,獲得樣本測試集分別通過每個子單元得到的預測信用概率;投票單元用于對集成分類訓練單元獲得的三個預測信用概率進行多數(shù)投票,若兩個或以上的預測信用概率高于0.5則客戶信用良好,否則客戶信用不良。本發(fā)明將深度學習算法循環(huán)神經(jīng)網(wǎng)絡RNN應用到信用評分問題,將邏輯回歸LR、極限梯度提升樹XGBoost與循環(huán)神經(jīng)網(wǎng)絡RNN并行集成,兼顧模型的多樣性和準確性,提高了模型的性能。
技術領域
本發(fā)明屬于數(shù)據(jù)挖掘技術領域,具體涉及一種基于深度學習的信用評分集成分類系統(tǒng)。
背景技術
近年來,信貸市場發(fā)展迅速,金融機構面臨的挑戰(zhàn)越來越多。信用風險評估作為金融行業(yè)的重要環(huán)節(jié),在選擇信貸客戶、度量風險等方面發(fā)揮著重要作用。個人的信用評分通常為二分類問題,根據(jù)客戶的信用數(shù)據(jù)和相關特征開發(fā)分類器,構建決策系統(tǒng),將客戶分為信用良好和信用不良兩類,向金融機構提供決策支持。
目前,應用于信用評分的分類方法主要有兩種:統(tǒng)計方法和人工智能方法,這些方法相比過去的經(jīng)驗判斷更加準確、可靠。統(tǒng)計方法中最常用的兩個模型是邏輯回歸和線性判別分析,它們易于實現(xiàn)且準確率較高而廣受歡迎,但它們具有理想性的假設可能會限制模型性能。后來人工智能方法開始應用于信用評分問題,如決策樹、支持向量機等。然而,單一的算法并不能有效地解決所有信用評分問題,而集成學習算法結合多種基礎算法,考慮多個分類器,具有多樣性,它的思路是基于多個學習算法的集成來提升預測結果。據(jù)研究表明,集成學習算法比單一的人工智能方法和統(tǒng)計方法效果更好。目前,有很多學者將基礎的機器學習方法應用于信用評分領域,然而這些方法主要關注抽象層次的分類器輸出,通常需要復雜的特征工程。而具有足夠隱藏層的深度學習模型可以自動學習模式特征,并將特征學習融入到了建立模型的過程中,具有強適用性和遷移性,但深度學習在該領域研究甚少。
綜上所述,現(xiàn)有技術存在的問題是:現(xiàn)有的信用評分模型大多數(shù)都是由淺層架構構建,需要復雜的特征工程,準確度較低,具有一定局限性。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于深度學習的信用評分集成分類系統(tǒng)及方法,用以解決現(xiàn)有技術中的現(xiàn)有的信用評分模型大多數(shù)都是由淺層架構構建,需要復雜的特征工程,準確度較低的問題。
為了實現(xiàn)上述任務,本發(fā)明采用以下技術方案:
一種基于深度學習的信用評分集成分類系統(tǒng),包括數(shù)據(jù)獲取及預處理單元、集成分類訓練單元和投票單元;
所述數(shù)據(jù)獲取及預處理單元用于獲取信用數(shù)據(jù)集,并對信用數(shù)據(jù)集進行數(shù)據(jù)預處理得到樣本數(shù)據(jù)集,將樣本數(shù)據(jù)集分為樣本訓練集和樣本測試集;
所述集成分類訓練單元包括RNN子單元、LR子單元和XGBoost子單元,所述集成分類訓練單元用于將數(shù)據(jù)獲取及預處理單元得到的樣本訓練集分別通過RNN子單元、LR子單元和XGBoost子單元進行訓練,獲得樣本測試集分別通過每個子單元得到的預測信用概率;
所述投票單元用于對集成分類訓練單元獲得的三個預測信用概率進行多數(shù)投票,若兩個或以上的預測信用概率高于0.5則客戶信用良好,否則客戶信用不良。
進一步的,所述信用數(shù)據(jù)集包含客戶的個人屬性值,包括性別、信用記錄、支票賬號狀況、婚姻情況、工作情況、信貸目的和財產(chǎn)情況。
進一步的,所述數(shù)據(jù)獲取及預處理單元包括數(shù)據(jù)獲取子單元和預處理子單元,所述預處理子單元包括缺失值補充模塊、虛擬變量定義模塊和歸一化模塊,所述缺失值補充模塊用于通過均值插補的方法補充個人屬性值的缺失值,所述虛擬變量定義模塊用于將個人屬性值中的字母轉換為數(shù)字,所述歸一化模塊用于對個人屬性值進行歸一化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北大學,未經(jīng)西北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910715438.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 用于識別字跡的方法、裝置及計算機可讀介質
- 基于層級神經(jīng)網(wǎng)絡的圖像-句子描述生成系統(tǒng)及方法
- 基于差異循環(huán)神經(jīng)網(wǎng)絡的意圖識別方法
- 一種基于深度學習大規(guī)模病歷的輔助診斷系統(tǒng)
- 一種改進鯨魚算法的循環(huán)神經(jīng)網(wǎng)絡短期電力負荷預測方法
- 基于門控循環(huán)神經(jīng)網(wǎng)絡的非線性均衡方法
- 一種基于卷積核相似性剪枝的循環(huán)神經(jīng)網(wǎng)絡模型壓縮方法
- 一種基于循環(huán)神經(jīng)網(wǎng)絡對動態(tài)磁滯進行補償?shù)姆椒跋到y(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡的聲音事件檢測方法
- 一種基于循環(huán)神經(jīng)網(wǎng)絡的駕駛人多操作疲勞特征提取方法





