[發明專利]用于構建機器學習模型的特征選取方法、裝置以及設備在審
| 申請號: | 201811244486.8 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN109460825A | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 唐渝洲;金宏;王維強;趙聞飆 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京億騰知識產權代理事務所 11309 | 代理人: | 張明;周良玉 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練數據集 訓練數據 子集 特征選取 機器學習模型 評價指標 構建 篩選 裝置及設備 并行執行 目標特征 訓練機器 預設 排序 融合 預測 學習 | ||
本說明書實施例提供一種用于構建機器學習模型的特征選取方法、裝置及設備,在特征選取方法中,獲取篩選后的訓練數據集。根據預設的拆分方式,對訓練數據集進行拆分,以獲得k組訓練數據子集。對該k組訓練數據子集,并行執行如下過程k次:從k組訓練數據子集中選取k?1組訓練數據子集,以作為當前訓練數據集。根據當前訓練數據集,計算多個待篩選的特征的m個評價指標。根據各個評價指標,對多個特征進行排序,從而得到m組多個特征的指標排名。基于當前訓練數據集,訓練機器學習模型,以預測一組多個特征的重要性排名。將k次得到的k*m組指標排名以及k組重要性排名進行融合,以獲取多個特征的總排名。根據總排名,從多個特征中選取目標特征。
技術領域
本說明書一個或多個實施例涉及計算機技術領域,尤其涉及一種用于構建機器學習模型的特征選取方法、裝置及設備。
背景技術
為了構建一個性能最優的機器學習模型,數據分析師和數據挖掘工程師通常會根據業務經驗以及對數據的理解,暴力衍生出很多維度的特征(也稱變量)。但這個過程往往會產生很多冗余細微的信息,這些信息對于我們想要構建的機器學習模型沒有太多價值甚至會產生副作用。因此在構建機器學習模型的過程中,我們需要不斷的去試驗,經過細致的特征篩選,最后構建一個最優的機器學習模型。
對于上述特征篩選的過程,當通過人為的方式進行時,通常非常耗費人力,且會拖慢模型構建的速度,因此通常采用自動化的方式進行。傳統技術中,主要有如下幾種自動化的特征選取方式:過濾式特征選擇、嵌入式特征選擇以及包裹式特征選擇。這些特征選取方式在篩選特征時,通常只考慮特征在部分數據拆分集合上的表現。
因此,需要提供一種特征的選取方式,以能夠篩選出更準確的特征。
發明內容
本說明書一個或多個實施例描述了一種用于構建機器學習模型的特征選取方法、裝置及設備,可以篩選出更準確的特征。
第一方面,提供了一種用于構建機器學習模型的特征選取方法,包括:
獲取訓練數據集;
根據預設的拆分方式,對所述訓練數據集進行拆分,以獲得k組訓練數據子集;
對所述k組訓練數據子集,并行執行如下過程k次:
從所述k組訓練數據子集中選取k-1組訓練數據子集,以作為當前訓練數據集;
根據所述當前訓練數據集,計算多個待篩選的特征的m個評價指標;
根據各個評價指標,對所述多個特征進行排序,從而得到m組所述多個特征的指標排名;
基于所述當前訓練數據集,訓練機器學習模型,以預測一組所述多個特征的重要性排名;
將k次得到的k*m組指標排名以及k組重要性排名進行融合,以獲取所述多個特征的總排名;
根據所述總排名,從所述多個特征中選取目標特征。
第二方面,提供了一種用于構建機器學習模型的特征選取裝置,包括:
獲取單元,用于獲取訓練數據集;
拆分單元,用于根據預設的拆分方式,對所述獲取單元獲取的所述訓練數據集進行拆分,以獲得k組訓練數據子集;
執行單元,用于對所述拆分單元拆分得到的所述k組訓練數據子集,并行執行如下過程k次:
從所述k組訓練數據子集中選取k-1組訓練數據子集,以作為當前訓練數據集;
根據所述當前訓練數據集,計算多個待篩選的特征的m個評價指標;
根據各個評價指標,對所述多個特征進行排序,從而得到m組所述多個特征的指標排名;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811244486.8/2.html,轉載請聲明來源鉆瓜專利網。





