[發明專利]一種基于自動特征編碼的多階特征組合方法有效
| 申請號: | 202010312421.3 | 申請日: | 2020-04-20 |
| 公開(公告)號: | CN111582325B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 董守斌;鐘振遠;胡金龍 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F18/25 | 分類號: | G06F18/25;G06F18/214;G06F16/18;G06F16/2458 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動 特征 編碼 組合 方法 | ||
本發明公開了一種基于自動特征編碼的多階特征組合方法,包括步驟:1)對日志型數據的訓練集進行預處理和數據采樣;2)構建代理搜索模型對特征組進行搜索,得到評價指標最高的特征組;3)構建復合目標編碼器對選中的特征組編碼,得到多階組合特征;4)對多階組合特征進行內嵌式特征選擇,保留有效特征;5)重復步驟2)?4),最終得到完整的有效組合特征編碼表;6)參照有效組合特征編碼表,使用復合目標編碼器對訓練集和測試集轉化,獲得多階特征組合訓練集和測試集。本發明方法能夠自動完成預處理、特征工程等一系列步驟,有助于機器學習平臺節省人工成本、降低特征工程時間開銷和提升預測精度。
技術領域
本發明涉及互聯網數據挖掘中的自動特征工程領域,尤其是指一種基于自動特征編碼的多階特征組合方法。
背景技術
隨著大數據時代的到來和人工智能在互聯網的蓬勃發展,互聯網中各種數據挖掘任務均開始采用數據驅動的解決方案,即以機器學習為核心方法,利用海量數據進行學習和預測。對于互聯網中常見的日志型數據的數據挖掘任務來說,較重要的一個步驟是進行特征工程,特征工程很大程度決定了預測效果的上限;同時,日志型數據的特點是包含大量類別型特征和部分連續型特征。以廣告點擊日志為例,廣告點擊日志會包含如下特征:如用戶特征(性別,職業,所在地等),廣告特征(廣告主,廣告品牌等)和上下文特征(展示時間,廣告位尺寸等),因此對這些特征的特征工程是該類任務的重中之重。
日志型數據的數據挖掘任務使用的傳統特征工程方法以人工構造特征為主,需要從業人員通過先驗知識猜測構造特征的有效性并逐個進行驗證,這個過程不但需要豐富的業務知識和經驗,而且需要耗費大量時間在試錯之上。近年來出現了一些以構建特征表示學習模塊為核心的深度學習方法,這些方法能夠減少人工構造特征的需求,但是模型時間復雜度較高且沒有可解釋性。而使用自動特征工程框架對組合特征進行表示學習則既能保證可解釋性,又能顯著提升預測效果。本發明利用自動特征工程相關技術,自動搜索特定階的特征組合,并對特征組合進行編碼,構造新特征,在海量的日志型數據中挖掘出特征關系信息,生成的數據集能提高機器學習模型的預測效果,同時能增強機器學習模型的可解釋性。
發明內容
本發明目的在于針對現有技術存在的不足,提出了一種基于自動特征編碼的多階特征組合方法,該方法設計完善合理,能夠為日志型數據的數據挖掘部門節約大量人工成本和計算資源,將本來應該由數據分析師或特征工程師完成的人工特征工程工作變為由本發明的方法自動完成,機器學習平臺只需要輸入包含類別型特征和連續型特征的原始日志型數據集,本發明的方法就能自動完成預處理、特征工程等一系列步驟,并輸出生成的多階特征組合數據集和具備可解釋性的有效組合特征編碼表。
為實現上述目的,本發明所提供的技術方案為:一種基于自動特征編碼的多階特征組合方法,主要對日志型數據的訓練集和測試集進行多階特征組合,包括以下步驟:
1)對包含連續型特征和類別型特征的日志型數據的訓練集進行預處理,再對預處理后的日志型數據的訓練集進行數據采樣,得到采樣數據集;其中,所述預處理包括將連續型特征離散化和類別型特征降維;
2)構建代理搜索模型,對采樣數據集中的所有特征組進行搜索,選擇評價指標最高的特征組;
3)構建復合目標編碼器,對步驟2)中選中的特征組進行編碼,得到一系列的多階組合特征;
4)對得到的一系列多階組合特征進行內嵌式特征選擇,得到一組有效組合特征,將該組有效組合特征的構造范式加入有效組合特征編碼表,其中,所述有效組合特征編碼表是一個包含構造范式的集合,初始為空集,用于指導復合目標編碼器對日志型數據的訓練集和測試集的類別型特征進行編碼轉化;
5)要繼續搜索采樣數據集中余下的特征組,即沒有被選中的特征組,重復步驟2)至步驟4),直至已遍歷完采樣數據集的所有特征組或有效組合特征編碼表中的構造范式數量達到指定閾值,則終止循環,獲得完整的有效組合特征編碼表并進行步驟6);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010312421.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:檢測實時全額結算系統中死鎖的方法、設備、裝置和介質
- 下一篇:一種液壓支架





