[發明專利]數據分類方法、裝置、電子裝置及計算機可讀介質在審
| 申請號: | 201710352183.7 | 申請日: | 2017-05-18 |
| 公開(公告)號: | CN107169518A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 解鵬;曲洪濤 | 申請(專利權)人: | 北京京東金融科技控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/30;G06N99/00 |
| 代理公司: | 北京律智知識產權代理有限公司11438 | 代理人: | 王衛忠,姜怡 |
| 地址: | 101111 北京市北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 分類 方法 裝置 電子 計算機 可讀 介質 | ||
技術領域
本公開總體涉及數據處理技術領域,具體而言,涉及一種數據分類方法、裝置、電子裝置及計算機可讀介質。
背景技術
目前利用機器學習進行樣本分類的方法已廣泛得到應用,常用的算法模型如:邏輯回歸,決策樹,隨機森林,支持向量機及神經網絡等。對于大多數的算法進行模型訓練時,一般假設訓練樣本中各個分類的數量趨于均衡,且對于各類樣本模型預測出錯的代價是平權的。通常在樣本數據內各分類數據數量差別不大的情況下,機器學習可以取得不錯的分類效果。然而,實際上均衡的樣本數據這一要求往往不能得到滿足,各分類數據的數據量可能會有較大差別,乃至數量級的差別。例如需進行樣本分類的數據包括:醫學診斷,工業品不良品檢測,網絡入侵檢測,衛星圖像原油泄露檢測,金融反欺詐等領域的數據。這類數據共有的特點是:至少存在某一個分類數據,其數據量相對其它分類數據的數據量小若干個數量級。容易獲取樣本的類稱為多數類,反之稱為少數類。
現有技術中針對不均衡樣本的分類問題主要有以下三種解決方案:
方案一:針對模型的訓練樣本中的少數類樣本進行過采樣(oversampling),例如隨機復制過采樣、局部插值過采樣等,隨機復制過采樣就是隨機地從少數類樣本中復制生成新的少數類樣本加入到訓練樣本中,提高少數類樣本數據在訓練樣本中的占比;局部插值過采樣就是將少數類樣本的數據計算其最近鄰并進行插值生成新的少數類樣本加入到訓練樣本中,提高少數類樣本數據在訓練樣本中的占比。
方案二:針對模型的訓練樣本中的多數類樣本進行欠采樣(undersampling),例如隨機刪除欠采樣、局部刪除欠采樣等,隨機刪除欠采樣就是隨機抽取多數類樣本進行刪除,提高少數類樣本數據在訓練樣本中的占比;局部刪除欠采樣就是將多數類和少數類樣本交界處的多數類樣本有選擇的刪除,提高少數類樣本數據在訓練樣本中的占比。
方案三:調節模型訓練過程中的懲罰項因子,提高少數類樣本分類錯誤的懲罰項權重,從而提高少數類樣本分類的準確性。
在實際處理過程中,為了得到更好的分類效果,還可以將上述方案進行結合使用。
但是上述方案一和方案二的目的在于通過重采樣的方法提高訓練樣本中的少數類樣本占比,會存在以下缺點:
缺點一:增加少數類樣本占比可以使得數據不均衡問題得到緩解,但對重采樣數據訓練的模型應用在于對新樣本的預測分類,而新樣本的分布并不會改變,少數類樣本占比依舊很低。訓練數據和實際應用的數據不滿足獨立同分布,模型結果缺乏合理性。
缺點二:針對某個少數類占比確定的不均衡數據分類問題,如何調整少數類占比,設計重采樣訓練數據缺乏指導,需要細致嘗試,工作量會很大。
缺點三:模型在不同業務不同場景下的遷移性較弱,通過訓練得到的模型依賴于既定的少數類原始占比和重采樣占比,不利于模型的推廣,不具有普適性。
上述方案三通過改變模型預測的懲罰項因子,提高少數類樣本預測權重,多數類樣本相應的權重會降低,但是也會存在一些缺點:
缺點一:少數類樣本分類性能的提升是以多數類樣本分類性能的下降為代價。
缺點二:設計合理的針對少數類樣本的懲罰項因子需要細致調試,工作量會很大。
基于上述,現有技術方案因嚴重偏離其均衡樣本的假設,如果利用常規的機器學習方法進行分類預測,針對少數類樣本預測的覆蓋率和準確率都很差。但是,通常對少數類數據往往需要進行重點關注,即業務對少數類模型預測結果準確性要求較高。因而,如何提升不均衡樣本分類問題的分類準確性顯得尤為重要。
在所述背景技術部分公開的上述信息僅用于加強對本公開的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開提供一種數據分類方法、裝置、電子裝置及計算機可讀介質,不依賴于某個特定的機器學習方法,從而提高不均衡樣本分類問題的準確性。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開的一方面,提供一種數據分類方法,包括:
對全量訓練數據采用機器學習方法進行建模得到原始模型,其中所述全量訓練數據中包含少數類樣本;
基于少數類占比閾值從所述全量訓練數據中篩選得到新訓數據,其中所述少數類占比閾值為各聚類區間內少數類樣本在所述聚類區間內所有數據占比的臨界值;
對所述新訓數據采用機器學習方法建模得到新訓模型;
分別應用所述原始模型和所述新訓模型對所述新訓數據進行分類預測得到原始分類結果和新訓分類結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東金融科技控股有限公司,未經北京京東金融科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710352183.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種小學生用電腦桌
- 下一篇:可多角度固定輕巧安裝便捷的床上書桌
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





