[發明專利]基于構建的預測模型低成本、高區分度的數據分類方法在審
| 申請號: | 201811568315.0 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109685133A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 韓晗;陳銳浩;陳貽汕 | 申請(專利權)人: | 四川新網銀行股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 成都智言知識產權代理有限公司 51282 | 代理人: | 李龍;徐金瓊 |
| 地址: | 610094 四川省成都市成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 二分類 預測 構建 自變量 高區分度 時間信息 數據采用 數據分類 預測模型 低成本 左區間 伴生 分類 變量使用 數據獲取 數據區間 同一數據 預測技術 預測結果 最終數據 數據源 制作 聯合 | ||
本發明公開了一種基于構建的預測模型低成本、高區分度的數據分類方法,屬于分類預測技術領域,解決現有技術中需要通過獲取更多的數據來制作多個二分類器,造成數據獲取時間長,獲取成本高等問題。本發明包括基于現有任一數據源,構建一個連續預測變量的二分類器,連續預測變量使用n個不含時間信息的自變量和m個含時間信息的自變量來共同預測;根據二分類器在連續預測變量范圍內的預測結果,將連續預測變量范圍分成三個區間,即左區間、中間區間和右區間;基于中間區間和二分類器,構建伴生指數;左區間和右區間的數據采用二分類器進行預測,中間區間的數據采用二分類器和伴生指數聯合預測,得到最終數據的分類。本發明用于利用同一數據源進行數據區間分類。
技術領域
一種基于構建的預測模型低成本、高區分度的數據分類方法,用于利用同一數據源進行數據區間分類,屬于統計學、機器學習算法、分類預測技術領域。
背景技術
在機器學習和統計中,分類是基于包含其類別成員資格已知的觀察(或實例)的訓練數據集來識別新觀察所屬的一組類別(子群體)中的對應問題。例如,將給定的電子郵件分配給“垃圾郵件”或“非垃圾郵件”類,并根據觀察到的患者特征(性別,血壓,某些癥狀的存在或不存在等)為給定患者分配診斷。在機器學習的術語中,分類預測被認為是監督學習的一個實例,即學習后可獲得用于正確識別觀察的訓練集。
二分類器性能在很大程度上取決于要分類的數據的特征。精度和召回是用于評估分類系統質量的常用度量。ROC(Receiving Operating Curve)曲線已用于評估分類算法的真實和假陽性率之間的權衡,由此衍生出另外一個常用的二分類器區分度的指標為AUC值(Area Under the Curve)。
據我們所知,給定一個訓練好的二分類器,暫無使用現有數據變量來提升其區分度的方法。行業一般做法是根據不同的數據源分別開發幾個不同的二分類器,綜合使用來交叉覆蓋單個二分類器不能準確預測結果的樣本。例如,考慮預測一個樣本是“yes”還是“no”的二分類問題。如果有兩個不同的數據源,基于第一個數據源開發了二分類器1,基于第二個數據源開發了二分類器2。兩個二分類器都以一個[300,900]區間的連續取值打分為基礎,打分高于某個閾值(即第一個二分類器針對數據源打分后,得到打分區間范圍,是否高于某個閾值(針對第一個二分類器打分設置的),再結合第二次二分類器進行打分,判斷低于閾值區間的打分是否高于再次設置的某個閾值(針對第二次二分類器打分設置的),就預測為“yes”,否則預測為“no”。那么,可以綜合兩個二分類器,做出二維交叉矩陣,來根據建模樣本在每個交叉區間中的表現來做聯合預測。如圖1所示,以數據為例說明了該方案的應用方式。
根據數據源所需要的分類,也有可以結合兩個或多個二分類器做模型融合的各種方案 (例如model averaging,ensemb Ie Iearning,stacking等等)。
這些方案都是基于有兩個或者多個二分類器的基礎,其中的前提是需要有不同的數據來制作不同的二分類器。這樣就會存在如下不足之處:
一是、用于構建新的二分類器的新數據,需再次進行查詢,從而造成增加新數據查詢時間,最終延長該二分類器響應請求的時間,降低用戶體驗;
二是、查詢的新數據是要是真實可用的,大部分情況都是要通過與第三方建立獲取關聯,即要第三方授權獲取,從而增加數據成本。
發明內容
針對上述研究的問題,本發明的目的在于提供一種基于構建的預測模型低成本、高區分度的數據分類方法,解決現有技術中的分類方法對數據進行分類,需要通過獲取更多的數據來制作多個二分類器,造成數據獲取時間長、獲取成本高、消耗資源開鎖高等問題。
為了達到上述目的,本發明采用如下技術方案:
一種基于構建的預測模型低成本、高區分度的數據分類方法,其特征在于,如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川新網銀行股份有限公司,未經四川新網銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811568315.0/2.html,轉載請聲明來源鉆瓜專利網。





