[發明專利]基于GroupLasso的變量自動選擇方法、系統及可讀介質在審
| 申請號: | 202010724681.1 | 申請日: | 2020-07-24 |
| 公開(公告)號: | CN111859682A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 陳亞娟;龍泳先;羅維檢;孟穎;邊亞瑜 | 申請(專利權)人: | 北京睿知圖遠科技有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20 |
| 代理公司: | 北京力量專利代理事務所(特殊普通合伙) 11504 | 代理人: | 姚遠方 |
| 地址: | 101500 北京市密云區鼓樓東大街3號山水*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 grouplasso 變量 自動 選擇 方法 系統 可讀 介質 | ||
本發明涉及數據處理技術領域,具體涉及一種基于Group Lasso的變量自動選擇方法、系統及可讀介質,本發明利用用戶行為數據和標簽特征,其輸入是數據,包含特征字段和標簽字段。在數據上建立模型的過程中,算法自動進行各個變量的篩選,最終保留篩選下來的變量和一個建立好的邏輯斯蒂回歸模型,用于對新數據進行預測。本發明變量選擇與模型建立的過程是同時進行的,避免了在模型訓練之前進行手動選擇變量帶來的局限性。將變量選擇與模型訓練相結合,我們通過運用一個算法將數據和變量的信息進行了直接整合,有利于提升模型準確度;本發明極易于應用在其他建模場景上,因此該發明具有良好的靈活性與可拓展性。
技術領域
本發明涉及數據處理技術領域,具體涉及一種基于Group Lasso的變量自動選擇方法、系統及可讀介質。
背景技術
數據建模在人們的工作與生活中承擔了越來越重要的作用。工業科技的發展為人們帶來了更多的數據,而如何利用數據建模去解決各種實際問題成為了一個很重要的話題。在大數據建模分析的過程中,其中一個核心的問題是對變量的篩選。隨著數據維度變高,各個變量之間往往帶有比較嚴重的信息重復性,因此如何最優地篩選變量成為了大數據建模的基礎。變量篩選的操作對于提升模型準確度,以及提高模型可解釋性方面有重要作用。現有的變量篩選的方法多半是基于研究人員的業務經驗和數據直覺進行手篩選。自動化變量篩選的方法是一個非常熱門的研究領域,之前的研究有等寬分箱、等頻分箱、卡方分箱、決策樹分箱等。而基于Lasso系列的自動分箱方法則沒有人進行過研究。
經檢索,中國專利申請號為CN201210427974.9的專利,公開了一種基于偏最小二乘的變量選擇方法,涉及基于偏最小二乘的變量選擇方法。該選擇方法包括:對待分析變量進行預處理,獲取標準化變量集;根據標準化變量集計算回歸向量,所述的回歸向量的各元素表示相應的輸入變量對于輸出的貢獻率,所述的貢獻率的排序順序為依次減小的順序;根據回歸向量的貢獻率的排序順序對輸入變量進行排序,獲取輸入變量序列Xior;對輸入變量序列Xior中的所有輸入變量進行相關性檢驗;對入變量選擇計算獲取回歸系數。上述專利中的基于偏最小二乘的變量選擇方法存在以下不足:變量選擇與模型訓練無法同時進行;人為干預高,自動化低,信息利用率低。
發明內容
針對現有技術的不足,本發明公開了一種基于Group Lasso的變量自動選擇方法、系統及可讀介質,用于解決現有變量選擇技術中存在的缺點。
本發明通過以下技術方案予以實現:
第一方面,本發明公開一種基于Group Lasso的變量自動選擇方法,所述方法包括以下步驟:
S1輸入數據(A,B),A指代高維度的用戶行為特征數據,中的非數值變量需要被提前數值化;B指代A對應的標簽數據,B中的標簽需要被提前數值化編碼;
S2對A數據進行分箱,給每一個分箱衍生出一個0,1編碼的指示變量,附加空值(NA)單獨分出一個子分箱;
S3對于分箱后的新的變量矩陣Aenc,求解一個分組Group Lasso的優化問題來估計每個子變量的參數mij。
S4對估計的各個變量進行篩選,最終保留篩選下來的變量和一個建立好的邏輯斯蒂回歸模型,完成分箱。
更進一步的,所述S1中,特征數據A為數值型變量,對于非數值型的變量首先進行數值編碼,對標簽數據進行啞變量編碼的數值標簽,對于非數值的標簽例取值的標簽預先進行0,1量化編碼。
更進一步的,所述S2中,選擇10個卡方分箱,給每一個分箱衍生出一個0,1編碼的指示變量,附加空值(NA)單獨分出一個子分箱,將原始的每個變量拆成11個細粒度的子分箱,將原始的每個變量Ai拆分為多個Ai,j子變量。
更進一步的,所述S3中,Group Lasso的問題如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京睿知圖遠科技有限公司,未經北京睿知圖遠科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010724681.1/2.html,轉載請聲明來源鉆瓜專利網。





