[發明專利]一種基于稀疏潛在變量模型的銀行業特征變量聚類的方法在審
| 申請號: | 202010121110.9 | 申請日: | 2020-02-26 |
| 公開(公告)號: | CN111401408A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 何悅 | 申請(專利權)人: | 深圳索信達數據技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q10/06;G06Q40/02 |
| 代理公司: | 深圳市千納專利代理有限公司 44218 | 代理人: | 黃良寶 |
| 地址: | 518000 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 稀疏 潛在 變量 模型 銀行業 特征 方法 | ||
一種基于稀疏潛在變量模型的銀行業特征變量聚類的方法,解決傳統的Kmeans聚類方法,每一個特征變量只對應一類,對輸入數據的門檻要求比較高,得到的結果精確低,特征工程效果差的技術不足,包括有如下步驟:第一步,對原始數據進行一致性檢查;第二歩,對輸入的p維數據集X進行建模:X=AZ+E;第三步,根據數據集X的協方差矩陣∑來計算純變量指數集I和非純變量指數集J;第四歩,計算矩陣A中對應純變量指數集I的子矩陣AI和矩陣A中對應非純變量指數集J的子矩陣AJ;第五步,根據矩陣A中的元素來判斷聚類結果,最終將p個特征變量聚到k個類;根據k個聚類的定義,來一一分配數據集X中的p個特征變量到k類之中,只要元素Ajk不等于0,則認為數據集X中第j個特征變量屬于新聚的第k類。所輸入數據的門檻要求比較低,可以將更多的數據輸入模型,得到更精確的結果。
技術領域
本發明涉及到銀行業中的高維數據處理領域,具體涉及銀行業高維數據中關于特征變量的聚類改進方面。
背景技術
特征工程是對銀行數據集進行建模分析前的重要步驟,其中如何挑選合適數目的特征變量是個很值得深究的問題。以前的數據預處理方法通常是先看變量之間的相關系數,并且設定一個閾值。如果兩個變量之間有很強的相關性,則會刪除一個變量,以解決多重共線性問題。但是這種方法有兩個缺點:第一,設定閾值的問題。在不同的數據集中變量之間的相關系數不一樣,如果定義相關系數在0.8以上為強相關,則會出現問題。比如,有的數據集的皮爾森矩陣中有很多數是大于0.8,那么會刪掉很多變量。有的數據集的皮爾森相關矩陣中有很多數是小于0.8,那么會保留很多變量。第二,不好確定具體刪除哪個變量。當發現兩個變量之間具有很強的相關性時,通常是隨意選一個變量保留,并沒有一個確定的標準,選擇不同的變量可能對后面的模型效果有不同的影響。
傳統的Kmeans聚類方法,則每一個特征變量只對應一類。但是該方法的特點則是在于重疊聚類,即一個特征變量可能屬于一類,也可能同時屬于更多類。得到的聚類結果也是分為兩種。第一種情況,如果該特征變量只屬于一類,則該變量是純變量。第二種情況,如果該特征變量屬于兩類及以上,則該變量是非純變量;對輸入數據的門檻要求比較高,得到的結果精確低,特征工程效果差。
發明內容
綜上所述,本發明的目的在于解決傳統的Kmeans聚類方法,每一個特征變量只對應一類,對輸入數據的門檻要求比較高,得到的結果精確低,特征工程效果差的技術不足,而提出一種基于稀疏潛在變量模型的銀行業特征變量聚類的方法。
為解決本發明所提出的技術問題,采用的技術方案為:
一種基于稀疏潛在變量模型的銀行業特征變量聚類的方法,其特征在于所述方法包括有如下步驟:
第一步,對原始數據進行一致性檢查,標準化數據格式,清除重復數據、異常數據和無效數據,糾正錯誤數據,根據數據分布情況,使用中位數或者平均值填補缺失值,并將類別變量轉化為數值型變量;
第二歩,對輸入的p維數據集X進行建模:X=AZ+E;其中:A是p×k的矩陣,Z是k×n的矩陣,E是p×n的噪音矩陣,Z是k維,k是提前設定好的聚類個數,kp;當矩陣A中的元素Ajk不為0時,則判定第j個變量屬于第k類;
第三步,根據數據集X的協方差矩陣∑來計算純變量指數集I和非純變量指數集J;
第四歩,計算矩陣A中對應純變量指數集I的子矩陣AI和矩陣A中對應非純變量指數集J的子矩陣AJ;
第五步,根據矩陣A中的元素來判斷聚類結果,最終將p個特征變量聚到k個類;根據k個聚類的定義,來一一分配數據集X中的p個特征變量到k類之中,只要元素Ajk不等于0,則認為數據集X中第j個特征變量屬于新聚的第k類。
作為對本發明作進一步限定的技術方案包括有:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳索信達數據技術有限公司,未經深圳索信達數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010121110.9/2.html,轉載請聲明來源鉆瓜專利網。





