[發明專利]基于GroupLasso的變量自動選擇方法、系統及可讀介質在審
| 申請號: | 202010724681.1 | 申請日: | 2020-07-24 |
| 公開(公告)號: | CN111859682A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 陳亞娟;龍泳先;羅維檢;孟穎;邊亞瑜 | 申請(專利權)人: | 北京睿知圖遠科技有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20 |
| 代理公司: | 北京力量專利代理事務所(特殊普通合伙) 11504 | 代理人: | 姚遠方 |
| 地址: | 101500 北京市密云區鼓樓東大街3號山水*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 grouplasso 變量 自動 選擇 方法 系統 可讀 介質 | ||
1.一種基于Group Lasso的變量自動選擇方法,其特征在于,所述方法包括以下步驟:
S1輸入數據(A,B),A指代高維度的用戶行為特征數據,中的非數值變量需要被提前數值化;B指代A對應的標簽數據,B中的標簽需要被提前數值化編碼;
S2對A數據進行分箱,給每一個分箱衍生出一個0,1編碼的指示變量,附加空值(NA)單獨分出一個子分箱;
S3對于分箱后的新的變量矩陣Aenc,求解一個分組Group Lasso的優化問題來估計每個子變量的參數mij。
S4對估計的各個變量進行篩選,最終保留篩選下來的變量和一個建立好的邏輯斯蒂回歸模型,模型訓練。
2.根據權利要求1所述的基于Group Lasso的變量自動選擇方法,其特征在于,所述S1中,特征數據A為數值型變量,對于非數值型的變量首先進行數值編碼,對標簽數據進行啞變量編碼的數值標簽,對于非數值的標簽例取值的標簽預先進行0,1量化編碼。
3.根據權利要求1所述的基于Group Lasso的變量自動選擇方法,其特征在于,所述S2中,選擇10個卡方分箱,給每一個分箱衍生出一個0,1編碼的指示變量,附加空值(NA)單獨分出一個子分箱,將原始的每個變量拆成11個細粒度的子分箱,將原始的每個變量Ai拆分為多個Ai,j子變量。
4.根據權利要求1所述的基于Group Lasso的變量自動選擇方法,其特征在于,所述S3中,Group Lasso的問題如下:
其中∑i||mi||2代表對每個大變量分拆出的子變量組的變量系數加上一個組捆綁約束;所述λ為變量選擇強度系數。
5.根據權利要求4所述的基于Group Lasso的變量自動選擇方法,其特征在于,所述組捆綁約束實現在一個大組內的子變量的系數或者同時取值為0,或者有不為0的取值;在獲得參數估計的結果后,將估計出系數同時為0的變量組剔除,保留子變量系數不同時為0的變量組。
6.根據權利要求5所述的基于Group Lasso的變量自動選擇方法,其特征在于,所述一個大組是由同一個大變量生成的子變量總合。
7.根據權利要求1所述的基于Group Lasso的變量自動選擇方法,其特征在于,所述S4中,對估計的各個變量進行篩選,最終保留篩選下來的變量和一個建立好的邏輯斯蒂回歸模型,用于對新數據進行預測。
8.一種基于Group Lasso的變量自動分箱系統,所述系統用于執行如權利要求1-7任一項所述的基于Group Lasso的變量自動選擇方法,其特征在于,包括數據采集模塊、變量分箱,變量選擇與模型訓練模塊和輸出單元。
9.根據權利要求8所述的基于Group Lasso的變量自動分箱系統,其特征在于,所述數據采集模塊用于收集用戶運行時間的用戶行為數據,并且發送到服務器;
所述變量分箱與模型訓練模塊用于通過采集到的數據對用戶特征進行變量選擇,并且同時保留被選擇的變量訓練大數據評分卡模型;
所述輸出單元用于輸出自動變量選擇訓練好的模型。
10.一種可讀介質,其上存儲有計算機程序,其中,所述計算機程序被處理器執行時實現如權利要求1-7中任一所述的基于Group Lasso的變量自動選擇方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京睿知圖遠科技有限公司,未經北京睿知圖遠科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010724681.1/1.html,轉載請聲明來源鉆瓜專利網。





