[發明專利]一種基于多方數據集的信用分類方法有效
| 申請號: | 202110541128.9 | 申請日: | 2021-05-18 |
| 公開(公告)號: | CN113239199B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 錢鷹;劉振龍;劉歆;韋慶杰;安春生;姜美蘭 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N20/00;G06Q40/02 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多方 數據 信用 分類 方法 | ||
1.一種基于多方數據集的信用分類方法,其特征在于:該方法包括以下步驟:
S110:輸入信用評估相關的多方數據,構建信用評估數據集;
S120:對數據集進行預處理,包括:缺失值處理和歸一化,并得到標準輸入數據集;
S130:為有效利用多個數據集中的樣本信息,使用機器學習中的聚類算法與數據生成算法,將多個數據集進行對齊,得到對齊生成后的新數據集;
所述S130具體包括以下步驟:
S210:輸入待對齊的數據集;
S220:將能夠通過索引方式對齊的樣本進行對齊,得到初步對齊后數據集;
S230:利用機器學習中的聚類算法,即K-Means聚類算法,將對齊后的數據集C與樣本個數最大的數據集A′分別進行聚類,劃分為多個不同的簇A′1,A′2,A′3...A′n與C1,C2,C3...Cn,其中n為聚類的簇的個數,并且數據集A′與數據集C聚類的簇的個數相同,n具體的值根據數據集中樣本大小來設定;
S240:統計樣本個數最大的數據集聚類后的不同簇A′1,A′2,A′3...A′n中,在對齊后數據集不同簇C1,C2,C3...Cn中的占比,根據占比數量,將不同數據集聚類出來的簇進行對應,即使得A′i1與Cj形成對應關系;
S250:最后根據不同簇之間的對應關系,使用SMOTE方法進行樣本生成,將生成結果加入到最終對齊數據集中作為數據集對齊的輸出;
S140:為更好的應對存在大量文本特征導致的稀疏問題,將對齊后的數據集按照特征種類進行拆分,劃將文本特征與數值類型特征類型分別輸入到兩個模型中單獨訓練;
S150:使用邏輯回歸方法,將上述兩個模型的輸出結果作為輸入,計算兩個模型的最佳權重值,并輸出最終評估結果;
所述將文本特征與數值類型特征類型分別輸入到兩個模型中單獨訓練中,兩個模型分別為文本分類模型和數值分類模型;
所述文本分類模型為因子分解機神經網FNN;
所述數值分類模型為GBDT2NN,GBDT2NN使用樹蒸餾技術,將多顆決策樹結構轉換為神經網絡結構,通過使用神經網絡模型來近似樹狀結構的函數,實現結構知識的精餾;
所述步驟S140~S150具體包括以下步驟:
S310:獲取信用分類數據集,將數據集劃分為訓練集和測試集;
S320:將數據集進行拆分,單獨提取出文本類型特征和數值類型特征;
S330:將文本類型特征輸入到FNN網絡中進行訓練,采用FM預訓練得到的隱含層及其權重作為神經網絡的第一層的初始值,之后再不斷堆疊全連接層,最終輸出預測的結果,計算文本特征的分類損失,提取文本特征的分類信息,計算FNN分類損失函數;
S340:見數值類型特征輸入到GBDT2NN網絡中進行訓練,提取數值分類特征,計算GBDT2NN分類損失函數;
S350:將FNN得到的文本分類結果與GBDT2NN得到的數值類型分類結果輸入到LR模型中,計算LR模型的損失函數;
S360:最小化多個損失函數之和來調整FNN、GBDT2NN以及LR參數,重復執行S330~S350,直到分類損失不再變化。
2.根據權利要求1所述的一種基于多方數據集的信用分類方法,其特征在于:所述對數據集進行預處理具體為:
首先針對缺失數據,分別計算缺失比例,當缺失比例大于特定比例時,將特征直接從數據集中刪除;在剩下的缺失數據中,如果特征分布比較均勻,則計算該特征的均值進行缺失填補;如果特征分布不均勻,則采用眾數或者中位數進行填補;若缺失特征是離散型特征,則將該缺失特征轉換為啞變量;對于缺失比例小的特征,使用決策樹或線性回歸模型進行預測,進行填補;
其次針對大數特征,使用Min-max方法進行標準化,計算公式如下:
其中,x′為標準化后的值;x為原始特征值;Xmin為該特征在所有樣本中的最小值;Xmax為特征在所有樣本中的最大值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110541128.9/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





