[發(fā)明專利]基于CatBoost與受限玻爾茲曼機(jī)結(jié)合的用戶借貸違約預(yù)測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110024644.4 | 申請(qǐng)日: | 2021-01-08 |
| 公開(公告)號(hào): | CN112700324A | 公開(公告)日: | 2021-04-23 |
| 發(fā)明(設(shè)計(jì))人: | 張濤;張冰 | 申請(qǐng)(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號(hào): | G06Q40/02 | 分類號(hào): | G06Q40/02;G06N20/20;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 catboost 受限 玻爾茲曼機(jī) 結(jié)合 用戶 借貸 違約 預(yù)測(cè) 方法 | ||
1.基于CatBoost與受限玻爾茲曼機(jī)結(jié)合的用戶借貸違約預(yù)測(cè)方法,其特征在于:包括如下步驟:
步驟一:目標(biāo)變量定義,根據(jù)vintage分析,觀察各月份平均逾期的走勢(shì),確定表現(xiàn)窗口的時(shí)間跨度,將表現(xiàn)期內(nèi)逾期天數(shù)超過90天的用戶定義為“壞用戶”,將表現(xiàn)期內(nèi)逾期天數(shù)未超過90天的用戶定義為“好用戶”;
步驟二:數(shù)據(jù)獲取,選取建模的客戶數(shù)據(jù),獲取金融機(jī)構(gòu)自身的字段和客戶授權(quán)的第三方征信數(shù)據(jù)字段;
步驟三:探索性數(shù)據(jù)分析,對(duì)所述金融機(jī)構(gòu)自身的字段和所述第三方數(shù)據(jù)字段進(jìn)行分類,了解數(shù)據(jù)的大體情況,包括每個(gè)字段的缺失值情況、異常值情況、平均值、中位數(shù)、最大值、最小值以及分布情況;
步驟四:數(shù)據(jù)預(yù)處理,包括臟數(shù)據(jù)清洗、缺失值處理和異常值處理;
步驟五:特征工程,包括變量分箱、WOE轉(zhuǎn)換、信息值IV和變量相關(guān)系數(shù)計(jì)算、根據(jù)信息值IV和變量相關(guān)系數(shù)進(jìn)行特征篩選,確定可能的違約因素;
步驟六:處理不平衡的數(shù)據(jù),采用合成少數(shù)類過取樣算法,利用少數(shù)類樣本構(gòu)造人工樣本來平衡數(shù)據(jù),改善過擬合;通過在特征空間中相鄰近樣本之間嵌入人工樣本來增加少數(shù)類的樣本數(shù)目;
步驟七:將篩選的特征中的離散特征向量利用CatBoost算法進(jìn)行轉(zhuǎn)化得到catboost_vector,將經(jīng)過CatBoost處理之后的特征向量和步驟五篩選出的連續(xù)特征相結(jié)合作為受限玻爾茲曼機(jī)模型的輸入層在訓(xùn)練集上模型;
步驟八:利用測(cè)試集通過使用準(zhǔn)確率、查準(zhǔn)率、召回率、f1-度量和AUC值這5個(gè)評(píng)價(jià)指標(biāo)上對(duì)所訓(xùn)練的模型進(jìn)行評(píng)估,基于建立的模型,對(duì)貸款用戶進(jìn)行違約預(yù)測(cè)。
2.根據(jù)權(quán)利要求1所述的基于CatBoost與受限玻爾茲曼機(jī)結(jié)合的用戶借貸違約預(yù)測(cè)方法,其特征在于:所述步驟一中,收集歷史接待客戶的數(shù)據(jù)作為樣本集,每個(gè)借貸客戶的數(shù)據(jù)包括n維評(píng)價(jià)指標(biāo)數(shù)據(jù)和違約標(biāo)簽target,根據(jù)vintage分析,將表現(xiàn)期內(nèi)逾期天數(shù)超過90天的用戶定義為“壞用戶”表示貸款違約,target=1,將表現(xiàn)期內(nèi)逾期天數(shù)未超過90天的用戶定義為“好用戶”,表示正常還款,targer=0。
3.根據(jù)權(quán)利要求1所述的基于CatBoost與受限玻爾茲曼機(jī)結(jié)合的用戶借貸違約預(yù)測(cè)方法,其特征在于:所述步驟二中,金融機(jī)構(gòu)自身的字段包括客戶的年齡、戶籍、性別、收入、負(fù)債比以及在本機(jī)構(gòu)的借款行為,第三方征信數(shù)據(jù)字段包括多頭借貸、APP行為特征、網(wǎng)購(gòu)行為、第三方支付、反欺詐數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的基于CatBoost與受限玻爾茲曼機(jī)結(jié)合的用戶借貸違約預(yù)測(cè)方法,其特征在于:所述步驟四中的缺失值處理包括刪除缺失率大的樣本、根據(jù)樣本值的相似性或者變量之間的關(guān)系填補(bǔ)缺失值;所述步驟四中的異常值處理包括單變量異常值檢測(cè)、局部離群值因子檢測(cè)。
5.根據(jù)權(quán)利要求1所述的基于CatBoost與受限玻爾茲曼機(jī)結(jié)合的用戶借貸違約預(yù)測(cè)方法,其特征在于:所述步驟五中的變量分箱包括:通過卡方分箱選出對(duì)逾期狀態(tài)影響最顯著的字段、針對(duì)特征變量進(jìn)行自動(dòng)化分箱、根據(jù)分箱后的特征變量進(jìn)行用戶借貸違約預(yù)測(cè);所述自動(dòng)化分箱實(shí)現(xiàn)方法為,將數(shù)據(jù)等頻切分為p個(gè)區(qū)間,設(shè)定最大的分箱個(gè)數(shù)n,計(jì)算每一相鄰區(qū)間的卡方值,將卡方值最小的一對(duì)區(qū)間合并;統(tǒng)計(jì)現(xiàn)存的數(shù)據(jù)區(qū)間數(shù)量q,如果qn,重復(fù)執(zhí)行計(jì)算,直至q≤n。
6.根據(jù)權(quán)利要求1所述的基于CatBoost與受限玻爾茲曼機(jī)結(jié)合的用戶借貸違約預(yù)測(cè)方法,其特征在于:所述步驟五中的信息值IV相當(dāng)于WOE的加權(quán)求和,衡量自變量的預(yù)測(cè)能力。
7.根據(jù)權(quán)利要求1所述的基于CatBoost與受限玻爾茲曼機(jī)結(jié)合的用戶借貸違約預(yù)測(cè)方法,其特征在于:所述步驟六中的合成少數(shù)類過取樣算法流程如下:
(1)對(duì)于少數(shù)類中每一個(gè)樣本x,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類樣本集中所有樣本的距離,得到其k近鄰;
(2)根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N,對(duì)于每一個(gè)少數(shù)類樣本x,從其k近鄰中隨機(jī)選擇若干個(gè)樣本,假設(shè)選擇的近鄰為xn;
(3)對(duì)于每一個(gè)隨機(jī)選出的近鄰xn,分別與原樣本按照如下的公式構(gòu)建新的樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110024644.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:基于深度學(xué)習(xí)的機(jī)場(chǎng)道面地下結(jié)構(gòu)病害自動(dòng)檢測(cè)方法
- 下一篇:一種基于深度學(xué)習(xí)和詞袋模型的閉環(huán)檢測(cè)方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險(xiǎn);稅務(wù)策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計(jì)算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險(xiǎn),例如,風(fēng)險(xiǎn)分析或養(yǎng)老金
- 一種基于CatBoost模型的車輛尾氣濃度超標(biāo)判別方法
- 一種國(guó)家電網(wǎng)雷擊預(yù)測(cè)方法
- 一種國(guó)家電網(wǎng)機(jī)械外破預(yù)測(cè)方法
- 基于DVAE-Catboost的異常流量檢測(cè)方法與系統(tǒng)
- 一種腦電分類方法
- 基于catboost算法和集成學(xué)習(xí)的短期負(fù)荷預(yù)測(cè)方法及系統(tǒng)
- 基于CatBoost回歸算法的水稻地上部蛋白氮積累量遙感反演模型和方法
- 基于改進(jìn)多粒度級(jí)聯(lián)森林的扁平振動(dòng)電機(jī)缺陷檢測(cè)系統(tǒng)及方法
- 一種基于CatBoost和LSTM模型融合的短期負(fù)荷預(yù)測(cè)方法
- 一種基于深度學(xué)習(xí)的海浪高度預(yù)測(cè)方法及其應(yīng)用
- 生成受限和非受限執(zhí)行環(huán)境的機(jī)制
- 一種從宏小區(qū)重選到受限網(wǎng)絡(luò)的方法、裝置及系統(tǒng)
- 基于受限設(shè)備的地理存在來保護(hù)數(shù)據(jù)的系統(tǒng)和方法
- 受限事務(wù)執(zhí)行
- 通信系統(tǒng)、接入網(wǎng)絡(luò)節(jié)點(diǎn)和優(yōu)化通信網(wǎng)絡(luò)中能耗的方法和裝置
- 一種電網(wǎng)側(cè)新能源發(fā)電受限原因分析方法
- 一種移動(dòng)終端自定義受限桌面的方法和裝置
- 空調(diào)器功能的控制方法及裝置
- 受限空域監(jiān)視系統(tǒng)和方法
- 鄰接基坑受限土體自穩(wěn)型支護(hù)結(jié)構(gòu)及支護(hù)體系
- 人臉驗(yàn)證方法和系統(tǒng)
- 一種受限玻爾茲曼機(jī)隱含層節(jié)點(diǎn)動(dòng)態(tài)調(diào)整方法
- 一種基于受限玻爾茲曼機(jī)的路徑點(diǎn)數(shù)據(jù)行為識(shí)別方法
- 一種基于動(dòng)態(tài)條件玻爾茲曼機(jī)的太陽能預(yù)測(cè)方法
- 一種基于擬牛頓方法的受限玻爾茲曼機(jī)迭代映射訓(xùn)練方法
- 一種基于卷積受限玻爾茲曼機(jī)的形狀建模方法及相關(guān)裝置
- 基于多目標(biāo)優(yōu)化的稀疏受限玻爾茲曼機(jī)的手寫體識(shí)別方法
- 基于時(shí)窗滑移受限玻爾茲曼機(jī)的滾動(dòng)軸承故障診斷方法
- 經(jīng)由量子玻爾茲曼訓(xùn)練進(jìn)行斷層攝影和生成數(shù)據(jù)建模
- 用于文檔查詢的文檔玻爾茲曼機(jī)構(gòu)建優(yōu)化方法及裝置





