[發(fā)明專利]用于優(yōu)化信用評估模型的數(shù)據(jù)處理方法及裝置有效
| 申請?zhí)枺?/td> | 201710785991.2 | 申請日: | 2017-09-04 |
| 公開(公告)號: | CN107633265B | 公開(公告)日: | 2021-03-30 |
| 發(fā)明(設計)人: | 陳肖黎;賈西貝 | 申請(專利權)人: | 深圳市華傲數(shù)據(jù)技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q40/02 |
| 代理公司: | 北京酷愛智慧知識產(chǎn)權代理有限公司 11514 | 代理人: | 安娜 |
| 地址: | 518000 廣東省深圳市龍華新區(qū)清*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 優(yōu)化 信用 評估 模型 數(shù)據(jù)處理 方法 裝置 | ||
1.一種用于優(yōu)化信用評估模型的數(shù)據(jù)處理方法,其特征在于,包括:
獲取借款人的相關信息作為樣本數(shù)據(jù);
將所述樣本數(shù)據(jù)劃分為訓練集和測試集;
利用所述訓練集進行數(shù)據(jù)建模,得到初步評估模型;
利用所述測試集對所述初步評估模型進行測試;
若測試結果不滿足評估標準,則重新劃分訓練集和測試集,利用重新劃分的訓練集和測試集訓練進行數(shù)據(jù)建模和測試;
若測試結果滿足評估標準,則結束訓練,確定最終評估模型;
所述利用所述訓練集進行數(shù)據(jù)建模,得到初步評估模型,包括:
采用決策樹算法對所述訓練集中的連續(xù)型變量進行分段處理,將所述連續(xù)型變量轉換為離散型變量;
采用聚類算法對所述訓練集中的離散型變量進行分類處理;
根據(jù)分類結果對變量進行合并,確定初步模型特征值;
對所述模型特征值的樣本數(shù)據(jù)進行邏輯回歸,建立初步評估模型;
在進行邏輯回歸之前,還包括:
若借款人的模型特征值缺少數(shù)據(jù),則補全該模型特征值的數(shù)據(jù);
所述若借款人的模型特征值缺少數(shù)據(jù),則補全該模型特征值的數(shù)據(jù),包括:
若借款人的模型特征值缺少數(shù)據(jù),則查到該模型特征值的替換變量;
根據(jù)查到的替換變量的數(shù)據(jù)補全該模型特征值的數(shù)據(jù)。
2.根據(jù)權利要求1所述的方法,其特征在于,確定所述替換變量的方法包括:
計算變量間的歐式距離;
歐式距離小于閾值的兩項變量互為替換變量。
3.根據(jù)權利要求1所述的方法,其特征在于,所述若借款人的模型特征值缺少數(shù)據(jù),則補全該模型特征值的數(shù)據(jù),包括:
若借款人的模型特征值缺少數(shù)據(jù),則計算所有借款人該模型特征值的均值或中值;
根據(jù)計算得到的均值或中值補全該借款人的缺少數(shù)據(jù)的模型特征值。
4.根據(jù)權利要求1所述的方法,其特征在于,還包括:獲取外部統(tǒng)計數(shù)據(jù);
所述若借款人的模型特征值缺少數(shù)據(jù),則補全該模型特征值的數(shù)據(jù),包括:
若借款人的模型特征值缺少數(shù)據(jù),則根據(jù)所述外部統(tǒng)計數(shù)據(jù)補全該借款人的缺少數(shù)據(jù)的模型特征值。
5.根據(jù)權利要求1所述的方法,其特征在于,在進行邏輯回歸之前,還包括:
計算每個變量的信息價值;
根據(jù)預定的價值閾值進行檢驗,判斷變量是否有效;
對于無效的變量不參與邏輯回歸。
6.一種用于優(yōu)化信用評估模型的數(shù)據(jù)處理裝置,其特征在于,包括:
數(shù)據(jù)獲取模塊,用于獲取借款人的相關信息作為樣本數(shù)據(jù);
樣本劃分模塊,用于將所述樣本數(shù)據(jù)劃分為訓練集和測試集;
模型訓練模塊,用于利用所述訓練集進行數(shù)據(jù)建模,得到初步評估模型;
模型測試模塊,用于利用所述測試集對所述初步評估模型進行測試;若測試結果不滿足評估標準,則重新劃分訓練集和測試集,利用重新劃分的訓練集和測試集訓練進行數(shù)據(jù)建模和測試;若測試結果滿足評估標準,則結束訓練,確定最終評估模型;
所述模型訓練模塊具體包括:
第一分類模塊,用于采用決策樹算法對所述訓練集中的連續(xù)型變量進行分段處理,將所述連續(xù)型變量轉換為離散型變量;
第二分類模塊,用于采用聚類算法對所述訓練集中的離散型變量進行分類處理;
變量合并模塊,用于根據(jù)分類結果對變量進行合并,確定初步模型特征值;
邏輯回歸模塊,用于對所述模型特征值的樣本數(shù)據(jù)進行邏輯回歸,建立初步評估模型。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權利要求1-5之一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市華傲數(shù)據(jù)技術有限公司,未經(jīng)深圳市華傲數(shù)據(jù)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710785991.2/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





