[發明專利]一種基于稀疏潛在變量模型的銀行業特征變量聚類的方法在審
| 申請號: | 202010121110.9 | 申請日: | 2020-02-26 |
| 公開(公告)號: | CN111401408A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 何悅 | 申請(專利權)人: | 深圳索信達數據技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q10/06;G06Q40/02 |
| 代理公司: | 深圳市千納專利代理有限公司 44218 | 代理人: | 黃良寶 |
| 地址: | 518000 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 稀疏 潛在 變量 模型 銀行業 特征 方法 | ||
1.一種基于稀疏潛在變量模型的銀行業特征變量聚類的方法,其特征在于所述方法包括有如下步驟:
第一步,對原始數據進行一致性檢查,標準化數據格式,清除重復數據、異常數據和無效數據,糾正錯誤數據,根據數據分布情況,使用中位數或者平均值填補缺失值,并將類別變量轉化為數值型變量;
第二歩,對輸入的p維數據集X進行建模:X=AZ+E;其中:A是p×k的矩陣,Z是k×n的矩陣,E是p×n的噪音矩陣,Z是k維,k是提前設定好的聚類個數,kp;當矩陣A中的元素Ajk不為0時,則判定第j個變量屬于第k類;
第三步,根據數據集X的協方差矩陣∑來計算純變量指數集I和非純變量指數集J;
第四歩,計算矩陣A中對應純變量指數集I的子矩陣AI和矩陣A中對應非純變量指數集J的子矩陣AJ;
第五步,根據矩陣A中的元素來判斷聚類結果,最終將p個特征變量聚到k個類;根據k個聚類的定義,來一一分配數據集X中的p個特征變量到k類之中,只要元素Ajk不等于0,則認為數據集X中第j個特征變量屬于新聚的第k類。
2.根據權利要求1所述的一種基于稀疏潛在變量模型的銀行業特征變量聚類的方法,其特征在于:第三步中所述的純變量指數集I和非純變量指數集J獲取方法為:數據集X中有p個特征變量,它的協方差矩陣為∑p×p;對于每一個特征變量i,i∈{1,2,...p},先定義Mi=max|∑ij|,Si={j∈[p]\{i}:|∑ij|=Mi},對于所有的j∈Si,驗證Mi=Mj;如果上述條件都滿足,則可以定義第i個特征變量是純變量,i屬于純變量指數集I;在獲得純變量指數集I后,所有屬于全指數集{1,2..p}但不屬于純變量指數集I的指數都被判定為非純變量指數,由此構成了非純變量指數集J。
3.根據權利要求1所述的一種基于稀疏潛在變量模型的銀行業特征變量聚類的方法,其特征在于:在模型X=AZ+E中,將數據集X的協方差矩陣∑=ACAT+Cov(E),運用矩陣分解的方法得到∑II,∑IJ,并計算出矩陣C的估計;
對于任意的a,b∈[K],
在得到矩陣C的估計之后,計算子矩陣AI和子矩陣AJ:
對于每一個i∈Ia,j∈J,
讓
得到子矩陣Aj.=C-1θj。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳索信達數據技術有限公司,未經深圳索信達數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010121110.9/1.html,轉載請聲明來源鉆瓜專利網。





