[發明專利]數據處理的方法、裝置、存儲介質及電子設備在審
| 申請號: | 202010003252.5 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN111191731A | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 付小勇 | 申請(專利權)人: | 同盾控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 孫寶海;袁禮君 |
| 地址: | 311121 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 存儲 介質 電子設備 | ||
本發明實施例提供一種數據處理的方法、裝置、存儲介質及電子設備,該方法包括:基于樣本數據的柯爾莫可洛夫?斯米洛夫KS值確定備選分界點集合;基于分箱組數以及分箱的信息值IV從所述備選分界點集合中確定目標分界點;獲取所述樣本數據基于所述目標分界點的分箱結果;基于所述分箱結果對模型進行訓練。通過這種基于KS值以及IV的分箱方式對樣本數據離散化,將對模型的預測結果具有相同作用的樣本數據分到一個箱內,提升了訓練的模型的穩定性以及準確性,降低模型過擬合的風險。
技術領域
本發明涉及計算機技術領域,具體而言,涉及一種數據處理的方法、裝置、存儲介質及電子設備。
背景技術
一般情況下,在構建模型時,需要對樣本變量離散化,利用離散化后的樣本對模型進行訓練,訓練的模型會更穩定,也會降低模型過擬合的風險。例如,在建立申請評分卡模型時的邏輯回歸Logistic模型就需要對樣本變量進行離散化。
樣本離散化通常采用分箱法。分箱對異常數據有很強的魯棒性、在邏輯回歸模型中,將樣本變量離散化為N個啞變量后,每個啞變量有單獨的權重,相當于為模型引入了非線性特征,能夠提升模型表達能力,加大擬合,提升模型的精準度。因此,在建模數據的預處理的過程中,分箱(即樣本離散化)往往是較為核心一環。樣本分箱的優劣往往會影響模型的評分效果。
目前,常見的分箱可分為無監督分箱以及有監督分箱。
其中,無監督分箱可以分為:
等距分箱:按照相同距離將數據分成幾等份。
等頻分箱:將數據分成幾等份,每等份數據里面的個數是一樣的。
有監督分箱需要通過標簽計算劃分標準,常見的有監督分箱有卡方分箱、決策樹分箱,它們劃分依據的標準主要是卡方值、信息增益。
現有分箱方法往往比較粗糙、固定、單一,對模型提升效果有限,模型的表達能力弱,容易若擬合,降低模型的精準度,特別是針對營銷與風控建模場景,而且,容易受異常值的影響。
因此,需要一種新的數據處理的方法、裝置、存儲介質及電子設備,提升模型的穩定性以及降低過擬合的風險。
在所述背景技術部分公開的上述信息僅用于加強對本公開的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
有鑒于此,本發明提供一種數據處理的方法、系統、存儲介質及電子設備,至少在一定程度上提升模型的穩定性以及降低過擬合的風險。
本發明的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本發明的實踐而習得。
根據本發明實施例的一方面,提供一種數據處理的方法,其中,所述方法包括:基于所述樣本數據的柯爾莫可洛夫-斯米洛夫KS值確定備選分界點集合;基于分箱組數以及分箱的信息值IV從所述備選分界點集合中確定目標分界點;獲取所述樣本數據基于所述目標分界點的分箱結果;基于所述分箱結果對模型進行訓練。
在本發明的一些示例性實施例中,基于前述方案,基于所述樣本數據的KS值確定備選分界點集合,包括:基于所述樣本數據的KS值對所述樣本數據進行循環分箱,基于滿足預設條件的分箱結果確定備選分界點集合。
在本發明的一些示例性實施例中,基于前述方案,基于所述樣本數據的KS值對所述樣本數據進行循環分箱,基于滿足預設條件的分箱結果確定備選分界點集合,包括:獲取所述樣本數據的分箱結果;判斷所述分箱結果是否滿足所述預設條件;若判斷結果為否,基于所述分箱結果的KS值進行分箱,更新所述樣本數據的分箱結果;若判斷結果為是,基于所述分箱結果確定備選分界點集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同盾控股有限公司,未經同盾控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010003252.5/2.html,轉載請聲明來源鉆瓜專利網。





