[發明專利]對數據自動分箱的方法及裝置有效
| 申請號: | 201910362666.4 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110084376B | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 李驥東;何智福;藍科;覃進學 | 申請(專利權)人: | 成都四方偉業軟件股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F17/11;G06F17/16 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 徐麗 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 自動 方法 裝置 | ||
本發明涉及數據處理技術領域,具體涉及一種對數據自動分箱的方法及裝置,該方法具體包括:獲取用戶輸入的基本特征數據以及分箱條件,將分箱條件帶入預定義函數得到目標函數,根據分箱條件確定初始向量,將初始向量帶入目標函數確定對基本特征數據的搜索方向。進而以初始向量為基準點按照搜索方向對初始向量進行調整并帶入目標函數得到對應的函數值,當后一個函數值與當前函數值的差值小于預設收斂精度,則確定后一個函數值對應的初始向量作為分割點,最后依據確定的多個分割點對用戶輸入的基本特征數據進行分箱。通過本方案可實現快速分箱,使得各個分箱之間的關聯程度最低,進而便于對用戶輸入的數據進行客觀評分操作。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及一種對數據自動分箱的方法及裝置。
背景技術
隨著大數據、人工智能技術的發展和普及,越來越多的金融機構增加了對機器學習的重視程度,將傳統基于人工決策的管理方法逐步轉變為以數據驅動為基礎的智能化決策。特別是在銀行個人金融業務中,如信用卡業務、消費金融業務等領域,因其單筆金額小、申請頻率高、時效要求高等原因,導致使用傳統人工審批的方式無法滿足業務訴求。使用機器學習方法來進行風險管理,特別是基于邏輯回歸的評分卡模型,因其易于解釋、快速迭代、成熟穩定的特征,正逐漸被廣大銀行所采納。在評分卡過程中,分箱是尤為重要的一個環節,分箱能夠提高模型穩定性,提高計算性能,但是如何實現自動分箱,如何將分箱過程最優化一直是機器學習建模中的一個問題。
分箱的主要方法包括:等頻分箱、等寬分箱、自動分箱等,其中,等頻分箱主要是按數據占比進行分箱,如每10%數據作為一箱,等寬分箱主要是按特征最大最小值均分進行分箱,如年齡最大最小跨度為50,每10歲作為一箱,分為5箱,缺點在于弱化了特征取值不同對響應變量的影響。
自動分箱方法中目前廣泛使用的包括基于決策樹的自動化分箱、卡方分箱(Chi-merge),其中基于決策樹的自動化分箱核心思想是基于熵及信息增益,確定使分割前后特征信息增益最大的點,通過不斷對子節點進行分裂,實現自動分箱??ǚ椒窒浜诵乃枷胧腔谔卣骺ǚ街抵祵Ψ诸愡M行逐步合并,迭代達到終止條件。
以上兩類自動分箱方法對迭代終止條件過于敏感,如樹深度、最小箱容量等,容易造成過擬合問題,同時,兩類自動分箱方法對約束條件支持能力有限(如某類數據必須為一箱,指定箱子區間等),無法完全滿足實際建模過程中的分箱問題需求。
發明內容
本發明的目的在于提供一種對數據自動分箱的方法,以實現快速有效地將數據進行分箱,使得相鄰兩箱之間的關聯度最低,以此達到自動分箱的效果。
為了實現上述目的,本發明實施例采用的技術方案如下:
第一方面,本發明實施例提供了一種對數據自動分箱的方法,所述方法包括:獲取用戶輸入的基本特征數據以及分箱條件;將所述分箱條件帶入預定義函數得到目標函數;根據所述分箱條件確定初始向量,將所述初始向量帶入所述目標函數,確定對所述基本特征數據的搜索方向;以所述初始向量為基準點按照所述搜索方向對所述初始向量進行調整并帶入所述目標函數得到對應的函數值;當后一個函數值與當前函數值的差值小于預設收斂精度,則確定后一個函數值對應的調整后的初始向量作為分割點;依據確定的多個所述分割點對用戶輸入的所述基本特征數據進行分箱。
第二方面,本發明實施例還提供了一種對數據自動分箱的裝置,所述裝置包括:收發模塊,用于獲取用戶輸入的基本特征數據以及分箱條件;處理模塊,用于將所述分箱條件帶入預定義函數得到目標函數;根據所述分箱條件確定初始變量,將所述初始變量帶入所述目標函數,確定對所述基本特征數據的搜索方向;以所述初始向量為基準點按照所述搜索方向對所述初始向量進行調整并帶入所述目標函數得到對應的函數值;當后一個函數值與當前函數值的差值小于預設收斂精度,則確定后一個函數值對應的調整后的初始向量作為分割點;依據確定的多個所述分割點對用戶輸入的所述基本特征數據進行分箱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都四方偉業軟件股份有限公司,未經成都四方偉業軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910362666.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





