[發明專利]一種變量分箱方法、裝置、終端設備及存儲介質有效
| 申請號: | 201810309822.6 | 申請日: | 2018-04-09 |
| 公開(公告)號: | CN108959187B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 黃嚴漢;曾凡剛 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06F18/24 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 周燕君 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 變量 方法 裝置 終端設備 存儲 介質 | ||
本發明涉及計算機技術領域,提供了一種變量分箱方法、裝置、終端設備及存儲介質,變量分箱方法包括:獲取樣本數據;根據預設的變量配置,從樣本數據中確定待分箱的名義變量和該名義變量對應的特征值;將特征值存儲到預設的特征值集合中;針對特征值集合中的每個特征值,以該特征值為測試分裂點將名義變量分為兩箱,并計算特征值對應的關聯指標值;將關聯指標值中的最大值對應的特征值作為目標分裂點執行分箱操作,并將該特征值從所述特征值集合中移除;若分箱結果達到預設的箱數閾值則停止分箱,否則繼續執行分箱操作。本發明的技術方案實現了基于關聯指標值對名義變量進行自動分箱操作,減少人工干預及耗時,提高分箱操作的分箱效率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種變量分箱方法、裝置、終端設備及存儲介質。
背景技術
目前,常見的分箱方法是等寬分箱或者等頻分箱,等寬分箱是指將特征的取值范圍分為a個等寬的區間,每個區間當作一個分箱,等頻分箱是指把特征值按照從小到大的順序排列,根據特征值的個數等分為a部分,每部分當作一個分箱。但是無論是等寬分箱還是等頻分箱,都需要預先人工設定分箱的箱數,如果設定的箱數太小,則會損失較多的信息,如果設定的箱數太大,則達不到分箱的目的。
若在等頻分箱或者等寬分箱之后,再通過人工方式進行合并,由于這種人工合并需要依賴主觀經驗,無法確保提高特征預測能力,并且需要耗費較多時間,效率低下。
在樣本數據量較小的情況下,還可以通過人工方式分析特征值的分布情況,并根據分布情況對特征值進行人工分段,進行分箱,但是,一方面,這種方式依賴主觀經驗,并且特征值的分布并不能真實的反映樣本變量本身的特征,無法確保提高模型預測能力,另一方面給,在樣本數據量巨大的情況下,人工方式會帶來巨大的工作量,導致分箱效率低。
發明內容
本發明實施例提供一種變量分箱方法、裝置、終端設備及存儲介質,以解決現有技術中等頻分箱或等寬分箱的分箱結果不準確,以及分箱效率低的問題。
第一方面,本發明實施例提供一種變量分箱方法,包括:
獲取樣本數據;
根據預設的變量配置,從所述樣本數據中確定待分箱的名義變量和所述名義變量對應的m個特征值,其中,m為大于1的正整數;
將m個所述特征值存儲到預設的特征值集合中,并設置分箱輪數k的初始值為0,以及第0輪分箱的分箱結果為空,其中,k∈[0,m-1];
針對所述特征值集合中的每個特征值,以該特征值為測試分裂點,在第k輪分箱的分箱結果的基礎上將所述名義變量分為k+2箱,計算所述特征值對應的關聯指標值,得到m-k個所述關聯指標值;
將m-k個所述關聯指標值中的最大值對應的特征值作為目標分裂點,在第k輪分箱的分箱結果的基礎上將所述名義變量分為k+2箱,作為第k+1輪分箱的分箱結果,并將該特征值從所述特征值集合中移除;
若k+2達到預設的箱數閾值,則停止分箱,并將所述第k+1輪分箱的分箱結果確定為最終分箱結果,否則,對k進行加1操作后返回所述針對所述特征值集合中的每個特征值,以該特征值為測試分裂點,在第k輪分箱的分箱結果的基礎上,將所述名義變量分為k+2箱,計算該特征值對應的關聯指標值,得到m-k個所述關聯指標值的步驟繼續執行。
第二方面,本發明實施例提供一種變量分箱裝置,包括:
獲取模塊,用于獲取樣本數據;
確定模塊,用于根據預設的變量配置,從所述樣本數據中確定待分箱的名義變量和所述名義變量對應的m個特征值,其中,m為大于1的正整數;
存儲模塊,用于將m個所述特征值存儲到預設的特征值集合中,并設置分箱輪數k的初始值為0,以及第0輪分箱的分箱結果為空,其中,k∈[0,m-1];
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810309822.6/2.html,轉載請聲明來源鉆瓜專利網。





