[發明專利]基于構建的預測模型低成本、高區分度的數據分類方法在審
| 申請號: | 201811568315.0 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109685133A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 韓晗;陳銳浩;陳貽汕 | 申請(專利權)人: | 四川新網銀行股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 成都智言知識產權代理有限公司 51282 | 代理人: | 李龍;徐金瓊 |
| 地址: | 610094 四川省成都市成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 二分類 預測 構建 自變量 高區分度 時間信息 數據采用 數據分類 預測模型 低成本 左區間 伴生 分類 變量使用 數據獲取 數據區間 同一數據 預測技術 預測結果 最終數據 數據源 制作 聯合 | ||
1.一種基于構建的預測模型低成本、高區分度的數據分類方法,其特征在于,如下步驟:
S1、基于現有任一數據源,構建一個連續預測變量的二分類器,該連續預測變量使用n個不含時間信息的自變量和m個含時間信息的自變量來共同預測;
S2、根據二分類器在連續預測變量范圍內的預測結果,將連續預測變量范圍分成三個區間,即左區間、中間區間和右區間;
S3、基于中間區間和二分類器,構建伴生指數;
S4、左區間和右區間的數據采用二分類器進行預測,中間區間的數據采用二分類器和伴生指數聯合預測,得到最終數據的分類。
2.根據權利要求1所述的一種基于構建的預測模型低成本、高區分度的數據分類方法,其特征在于,所述步驟S1中二分類器為logistic regression,probit model,gradientboosting decision tree多種機器學習類模型中的一種。
3.根據權利要求1所述的一種基于構建的預測模型低成本、高區分度的數據分類方法,其特征在于,所述步驟S3的具體步驟為:
S3.1、計算二分類器所使用自變量的信息飽和度,即計算n個不含時間信息的變量和m個含時間信息的變量的信息飽和度;
S3.2、給定兩類別加權后不含時間信息的變量的總權重α和步驟S3.2中得到的m個含時間信息的變量的權重wi,兩類別為不含時間信息的變量和含時間信息的變量;
S3.3、根據總權重α和m個含時間信息的變量的權重wi構成的m+1維參數空間,計算連續預測變量的權重;
S3.4、根據步驟S3.1-步驟3.3得到最終的伴生指數ICI。
4.根據權利要求3所述的一種基于構建的預測模型低成本、高區分度的數據分類方法,其特征在于,所述步驟3.1的步驟包括:
二分類器使用n個不含時間信息的變量xi,i=1,...,n,,計算第i個非時間類變量的信息飽和度的計算公式為:
二分類器使用m個含時間信息的變量xi,i=n+1,...,n+m,根據經驗選取對應xi的閾值Li,使得當xi≥Li在該變量有足夠長時間的信息,按照給定閾值來線性取值來計算第i個時間類變量的信息飽和度,計算公式為:
5.根據權利要求3或4所述的一種基于構建的預測模型低成本、高區分度的數據分類方法,其特征在于,所述步驟3.2中,
伴生指數在二分類器指定的中間區間的區分度最大,即AUC值最大,n個不含時間信息的變量的總權重α和m個含時間信息的變量的權重wi需滿足條件為:
其中,C1和C2為時間類和非時間類變量在ICI里面的相對比重決定的上限和下限。
6.根據權利要求5所述的一種基于構建的預測模型低成本、高區分度的數據分類方法,其特征在于,所述步驟3.3的具體計算方式為:
使用單變量的信息飽和度計算n個變量的權重,否則對m個變量量化搜索,即采用格點搜索方法搜索m+1維參數空間(α,wn+1,...,wn+m),基于優化條件計算公式為:
其中,IVi是第i個變量的Information Value值,是在二分類機器學習問題中基于Weight of Evidence技術用來對輸入自變量進行編碼和評估其預測能力的指數。
7.根據權利要求6所述的一種基于構建的預測模型低成本、高區分度的數據分類方法,其特征在于,所述步驟3.4中,伴生指數ICI的計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川新網銀行股份有限公司,未經四川新網銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811568315.0/1.html,轉載請聲明來源鉆瓜專利網。





