[發明專利]一種基于分布漂移數據集的特征選擇方法有效
| 申請號: | 201610056798.0 | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105740388B | 公開(公告)日: | 2019-03-05 |
| 發明(設計)人: | 湯奇峰;薛守輝 | 申請(專利權)人: | 上海晶贊科技發展有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 上海翰信知識產權代理事務所(普通合伙) 31270 | 代理人: | 張維東 |
| 地址: | 200072 上海市閘*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布 漂移 數據 特征 選擇 方法 | ||
一種基于分布漂移數據集的特征選擇算法,具體包括過濾器和包裝器兩種版本,該算法通過引入特征泛化有效性分數(FGES)解決特征漂移問題,在給定數據集D、特征候選集F、需要選的特征數量N的設定下,可以產出對分類問題最有效的前N個特征及其排序。本發明使機器學習分類算法面對分布漂移數據集時,仍然可以使用過濾器和包裝器類方法進行特征選擇,進而提高機器學習分類算法運行效率、可擴展性和模型效果。
技術領域
本發明涉及機器學習領域的特征選擇和特征排序問題,尤其涉及了基于特征泛化能力有效性分數(FGES)的分布漂移數據集過濾器特征選擇方法(DDFSF)和分布漂移數據集包裝器特征選擇方法(DDFSW)。
背景技術
近年來,隨著大數據行業的發展,很多行業都產生了海量數據,包括數據種類、數據規模和數據維度都在不斷膨脹。為了從大量數據中發現知識和價值,機器學習算法在工業界的應用越來越廣泛。除了數據樣本不斷膨脹,數據特征種類和維度也在迅猛增長,特征維度可以達到千萬甚至更大。海量的特征會給后續機器學習算法在可擴展性和效果方面帶來一些問題。海量特征數據可能包含大量無關和冗余的特征,進而很大程度上降低了機器學習算法的效果。因此,當數據集包含大量特征數據時,在進行機器學習算法任務之前,進行特征選擇是非常必要的。
特征選擇算法通常被歸納為兩種基本類型:過濾器(filter)和包裝器(wrapper)。過濾器方法基于數據集的一般特性而不涉及具體機器學習算法;包裝器方法則依賴特定的提前選擇好的機器學習算法,然后根據其效果表現來評估和確定哪些特征被選擇。
目前,無論是過濾器還是包裝器,都有很多具體的特征選擇算法可供選擇,但其潛在假設都是基于靜態數據集的,即通常假設訓練集和測試集數據分布相同。這類方法通過在驗證數據集上選擇出特征子集,然后給后續機器學習算法使用,在測試數據集上往往是有效果的。在很多實際場景中(例如轉化率預測、用戶行為建模),數據集是動態變化的,進而導致特征分布也在動態變化。因此,這種情況的問題難點不僅在于特征維度高、無關特征、冗余特征這些特性,還在于特征數據的分布穩定程度或漂移程度。運用傳統的特征選擇方法,無論是過濾器還是包裝器,在遇到分布漂移數據集時,選擇出來的特征子集或者特征排序列表會因為數據分布漂移而失效。
發明內容
本發明的目的是針對現有技術的不足,提供一種基于分布漂移數據集的特征選擇方法,使傳統的過濾器方法和包裝器方法可以適用于分布漂移的動態數據集。
本發明的目的是通過以下技術方案實現的:
本發明首先提供了一種過濾器特征選擇方法,包括以下步驟:
步驟1,給定數據集D,特征候選集合F,需要選擇的特征數量N;
步驟2,計算特征候選集合F中每個特征的特征相關度分數FRS;
步驟3,計算特征候選集合F中每個特征的特征漂移程度分數FSS;
步驟4,計算特征候選集合F中每個特征的特征泛化能力有效性分數FGES;
步驟5,將特征候選集合F的所有特征根據特征泛化能力有效性分數從大到小排序,得到特征排序列表;
步驟6,根據步驟5的特征排序列表,選出特征排序列表的前N個特征,作為最終的特征排序列表。
本發明還提供了包裝器特征選擇方法,包括以下步驟:
步驟1,給定機器學習模型M,給定數據集D、特征候選集合F,需要初選的特征數量N;
步驟2,計算特征候選集合F中每個特征的特征相關度分數FRS;
步驟3,計算特征候選集合F中每個特征的特征漂移程度分數FSS;
步驟4,計算特征候選集合F中每個特征的特征泛化能力有效性分數FGES;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晶贊科技發展有限公司,未經上海晶贊科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610056798.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





