[發(fā)明專利]基于過采樣與隨機森林的不平衡信貸用戶分類方法在審
| 申請?zhí)枺?/td> | 202011344142.1 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112419045A | 公開(公告)日: | 2021-02-26 |
| 發(fā)明(設(shè)計)人: | 陶硯蘊;黃銳;岳國旗;吳澄 | 申請(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02;G06K9/62 |
| 代理公司: | 蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257 | 代理人: | 郭磊 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 采樣 隨機 森林 不平衡 信貸 用戶 分類 方法 | ||
1.一種基于過采樣與隨機森林的不平衡信貸用戶分類方法,其特征在于,包括:
步驟一:在數(shù)據(jù)清洗階段,首先進(jìn)行了探索性數(shù)據(jù)分析,對數(shù)據(jù)集中的缺值進(jìn)行處理,并對數(shù)據(jù)集進(jìn)行特征工程;
步驟二:在數(shù)據(jù)變換階段,采用過采樣的SMOTE方法進(jìn)行了處理,使訓(xùn)練集中違約用戶和還清用戶的數(shù)目接近一致,對離散型變量進(jìn)行獨熱編碼或標(biāo)簽編碼;
步驟三:在模型訓(xùn)練階段,劃分訓(xùn)練集和測試集,建立隨機森林模型進(jìn)行模型訓(xùn)練,并進(jìn)行參數(shù)調(diào)節(jié),給出最優(yōu)參數(shù);
步驟四:用該所述隨機森林模型模型對測試集的用戶進(jìn)行預(yù)測,并給出借款人貸前特征的重要性排序。
2.如權(quán)利要求1所述的基于過采樣與隨機森林的不平衡信貸用戶分類方法,其特征在于,所述數(shù)據(jù)集是Lending Club公開的2007-2018借貸數(shù)據(jù)集;該數(shù)據(jù)集共2260668個數(shù)據(jù)項,145個字段,標(biāo)簽項是loan_status,表示貸款狀態(tài),共有9種取值;對于貸款用戶貸前分類,只需要保留其中的2種取值,即Fully Paid和Charged Off。
3.如權(quán)利要求1所述的基于過采樣與隨機森林的不平衡信貸用戶分類方法,其特征在于,“對數(shù)據(jù)集中的缺值進(jìn)行處理”,具體包括:字段缺失超過70%則刪除該字段;字段缺失少于5%則刪除含有缺值的數(shù)據(jù)項;對于連續(xù)型字段,采用中位數(shù)或平均數(shù)進(jìn)行填充;對于離散型字段,采用眾數(shù)進(jìn)行填充。
4.如權(quán)利要求1所述的基于過采樣與隨機森林的不平衡信貸用戶分類方法,其特征在于,“數(shù)據(jù)集進(jìn)行特征工程”中,若變量的缺失率大于0.9或iv值小于0.05或相關(guān)性高于0.7時,該變量將被刪除。
5.如權(quán)利要求1所述的基于過采樣與隨機森林的不平衡信貸用戶分類方法,其特征在于,“對數(shù)據(jù)集中的缺值進(jìn)行處理”和“對數(shù)據(jù)集進(jìn)行特征工程”之間還包括對數(shù)據(jù)集進(jìn)行業(yè)務(wù)理解,所述數(shù)據(jù)集進(jìn)行業(yè)務(wù)理解具體包括:對數(shù)據(jù)集中所有特征進(jìn)行理解,對數(shù)據(jù)進(jìn)行進(jìn)一步清洗;刪除類別較多的離散型字段,防止獨熱編碼后特征空間過大;甄別貸后變量并刪除,防止標(biāo)簽泄露。
6.如權(quán)利要求1所述的基于過采樣與隨機森林的不平衡信貸用戶分類方法,其特征在于,“對離散型變量進(jìn)行獨熱編碼或標(biāo)簽編碼;”具體包括:如果字段類別少于2個,采用標(biāo)簽編碼進(jìn)行編碼;其余情況采用獨熱編碼,將離散型字段轉(zhuǎn)換為連續(xù)性字段。
7.如權(quán)利要求1所述的基于過采樣與隨機森林的不平衡信貸用戶分類方法,其特征在于,步驟三中,利用隨機搜索法得到所述隨機森林模型在所述數(shù)據(jù)集上的最優(yōu)參數(shù)。
8.一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)權(quán)利要求1到7任一項所述方法的步驟。
9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1到7任一項所述方法的步驟。
10.一種處理器,其特征在于,所述處理器用于運行程序,其中,所述程序運行時執(zhí)行權(quán)利要求1到7任一項所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344142.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險;稅務(wù)策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險,例如,風(fēng)險分析或養(yǎng)老金





