[發明專利]基于改進隨機森林的客戶信用分類方法在審
| 申請號: | 202110169939.0 | 申請日: | 2021-02-05 |
| 公開(公告)號: | CN112837145A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 吳家皋;王一帆 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02;G06K9/62;G06N7/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 隨機 森林 客戶 信用 分類 方法 | ||
1.一種基于改進隨機森林的客戶信用分類方法,其特征在于,包括如下步驟:
步驟1:將客戶樣本數據集劃分為訓練數據集和測試數據集;
步驟2:在所述訓練數據集上用CART分類回歸樹算法訓練生成包含m棵樹的初始隨機森林模型;
步驟3:將所述測試數據集輸入所述初始隨機森林模型,計算每棵決策樹分類結果的相似度和精確度;
步驟4:根據所述相似度和所述精確度,計算每棵決策樹的綜合性能指標;
步驟5:取前s個具有較高綜合指標的所述決策樹構成改進后的隨機森林模型。
2.根據權利要求1所述的基于改進隨機森林的客戶信用分類方法,其特征在于,所述步驟1具體包括:
D為客戶樣本數據集,di∈D為客戶樣本數據集中的任一樣本,di={特征變量集,Li},所述特征變量集包括借款金額、借款利率、借款期限、初始信用評級、年齡、歷史借款總金額、待還本金、歷史正常還款期數的用戶特征,Li為客戶信用分類,Li∈[1,c],c為信用分類數,表示共有c個不同信用級別;按均勻分布隨機地將客戶樣本數據集D劃分為訓練數據集和測試數據集。
3.根據權利要求2所述的基于改進隨機森林的客戶信用分類方法,其特征在于,按均勻分布隨機地將客戶樣本數據集D中80%的樣本劃分為訓練數據集F,20%樣本劃分為測試數據集G。
4.根據權利要求1所述的基于改進隨機森林的客戶信用分類方法,其特征在于,所述步驟2具體包括:在所述訓練數據集上訓練隨機森林模型,生成包含m棵樹的初始隨機森林模型,訓練時m的值取100。
5.根據權利要求2所述的基于改進隨機森林的客戶信用分類方法,其特征在于,所述相似度由Kappa統計量確定,計算方法如下:
令為測試數據集G中第i′個樣本di′被第j棵樹預測獲得的信用分類,則表示測試數據集G中被第j棵樹預測為第k類的樣本集合,k∈[1,c],Gk={di′|Li′=k,di′∈G}表示測試數據集G中標記為第k類的樣本集合,表示測試數據集G中被第j棵決策樹正確預測為第k類的樣本集合,則第j棵樹的分類觀測一致率表達式為:
第j棵樹的分類期望一致率表達式為:
第j棵決策樹的相似度Kappa統計量表達式為:
6.根據權利要求5所述的基于改進隨機森林的客戶信用分類方法,其特征在于,所述精確度的計算方法如下:
精確度根據決策樹對樣本的預測信用分類和樣本標記分類之間的方差來度量,經過歸一化處理,得到第j棵決策樹對于測試數據集G中所有樣本di′∈G的精確度為:
7.根據權利要求6所述的基于改進隨機森林的客戶信用分類方法,其特征在于,所述步驟4得到的相似度和精確度,計算第j棵樹的綜合性能指標為:
H(j)=αK(j)+(1-α)R(j)
其中,α為可調參數,α∈[0,1]。
8.根據權利要求7所述的基于改進隨機森林的客戶信用分類方法,其特征在于,所述步驟5具體包括:將決策樹按H(j)值從高到低排序,取前s個H(j)值對應的決策樹組成改進后的隨機森林模型,用于對客戶的信用級別進行分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110169939.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種天然氣輸送管道
- 下一篇:轉移資源的方法、裝置、設備、介質和程序產品





