[發明專利]一種變量分箱方法、裝置、終端設備及存儲介質有效
| 申請號: | 201810309822.6 | 申請日: | 2018-04-09 |
| 公開(公告)號: | CN108959187B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 黃嚴漢;曾凡剛 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06F18/24 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 周燕君 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 變量 方法 裝置 終端設備 存儲 介質 | ||
1.一種變量分箱方法,其特征在于,所述變量分箱方法包括:
獲取樣本數據,所述樣本數據為保險業務數據;
根據預設的變量配置,從所述保險業務數據中確定待分箱的名義變量和所述名義變量對應的m個特征值,其中,所述名義變量包括性別、年齡、住房情況中的至少一個,m為大于1的正整數;
將m個所述特征值存儲到預設的特征值集合中,并設置分箱輪數k的初始值為0,以及第0輪分箱的分箱結果為空,其中,k∈[0,m-1];
針對所述特征值集合中的每個特征值,以該特征值為測試分裂點,在第k輪分箱的分箱結果的基礎上將所述名義變量分為k+2箱,計算所述特征值對應的關聯指標值,得到m-k個所述關聯指標值;
將m-k個所述關聯指標值中的最大值對應的特征值作為目標分裂點,在第k輪分箱的分箱結果的基礎上將所述名義變量分為k+2箱,作為第k+1輪分箱的分箱結果,并將該特征值從所述特征值集合中移除;
若k+2達到預設的箱數閾值,則停止分箱,并將所述第k+1輪分箱的分箱結果確定為最終分箱結果,否則,對k進行加1操作后返回所述針對所述特征值集合中的每個特征值,以該特征值為測試分裂點,在第k輪分箱的分箱結果的基礎上,將所述名義變量分為k+2箱,計算該特征值對應的關聯指標值,得到m-k個所述關聯指標值的步驟繼續執行。
2.如權利要求1所述的變量分箱方法,其特征在于,獲取待分箱的名義變量和所述名義變量對應的m個特征值之前,所述變量分箱方法還包括:
從預設的配置文件中獲取分箱配置參數,其中,所述分箱配置參數包括所述箱數閾值。
3.如權利要求1所述的變量分箱方法,其特征在于,所述根據預設的變量配置,從所述保險業務數據中確定待分箱的名義變量和所述名義變量對應的m個特征值包括:
若所述變量配置為連續變量,則對所述連續變量進行等寬分箱或者等頻分箱,得到初始分箱結果;
根據所述初始分箱結果,確定待分箱的名義變量和所述名義變量對應的m個特征值。
4.如權利要求1所述的變量分箱方法,其特征在于,所述計算所述特征值對應的關聯指標值包括:
若所述名義變量屬于二元分類特征,則按照如下公式計算所述關聯指標值:
其中,IV為所述關聯指標值,ni1為第i箱中根據所述二元分類特征確定的白樣本的樣本數,ni2為第i箱中根據所述二元分類特征確定的黑樣本的樣本數,n*1為所述保險業務數據中所述白樣本的樣本總數,n*2為所述保險業務數據中所述黑樣本的樣本總數。
5.如權利要求1所述的變量分箱方法,其特征在于,所述計算所述特征值對應的關聯指標值還包括:
若所述名義變量屬于多元分類特征,則按照如下公式計算所述關聯指標值:
其中,Gr為所述關聯指標值,Y為所述保險業務數據的總樣本集,n為根據所述多元分類特征確定的樣本類別數,pg為屬于第g類別的樣本在所述總樣本集中的占比,Gini(Y)為所述總樣本集的基尼指數,Gini(Yj)為第j箱的基尼指數,Yj為第j箱的名義變量的樣本集合,Yj為Yj中的樣本數量,Y為所述總樣本集中的樣本數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810309822.6/1.html,轉載請聲明來源鉆瓜專利網。





