[發明專利]特征選擇方法和特征選擇服務系統在審
| 申請號: | 202010551883.0 | 申請日: | 2020-06-17 |
| 公開(公告)號: | CN113298104A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 馬馳;王沖;杜聰 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京清源匯知識產權代理事務所(特殊普通合伙) 11644 | 代理人: | 張艷梅;馮德魁 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 選擇 方法 服務 系統 | ||
本申請公開了一種特征選擇方法,包括:獲得原始樣本;對所述原始樣本進行復制,得到所述原始樣本的復制樣本,所述復制樣本中的特征少于其對應的原始樣本中的特征;將不同原始樣本對應的復制樣本中包含相同特征的復制樣本分入同一個復制樣本組;獲得復制樣本組的模型評估指標;根據所述復制樣本組的模型評估指標,從所述原始樣本中的特征中篩選出用于訓練機器學習模型的目標特征。采用上述方法,解決了現有技術中針對大規模數據的特征空間進行特征選擇效率較低的問題。
技術領域
本申請涉及計算機技術領域,具體涉及一種特征選擇方法和一種特征選擇服務系統。
背景技術
隨著互聯網技術的廣泛應用,網絡上產生的數據中包含大量有關聯的特征。比如,廣告場景中,會產生受眾特征、廣告特征、查詢特征、場景特征等多種類型的特征,而每一類特征又包含自身豐富的特征,以受眾特征為例,除了包括能夠表明受眾自身特性的屬性特征外,還包含大量行為特征,行為特征從時間上又可以分為長期、中期、短期,從類型上可以包括點擊、收藏、加購等,每個行為的條目(item)又包含若干屬性(例如所屬店鋪、類目等),將這些特征疊加起來,獲得的特征空間將是巨大的。
而減少特征空間中的特征具有重要的現實意義,例如,可以減少過擬合,提高采用這些特征訓練出的模型的泛化能力,使模型獲得更好的解釋性,增強對特征和特征值之間的理解,加快模型的訓練速度,提升在線推理的性能,節省存儲開銷等等。
現有技術中,進行特征選擇的一種常用的做法是將某個特征掩蓋(刪除)后進行預測,觀察模型評估指標(如曲線下面積AUC,Area Under Curve)下降的程度,該指標下降越多說明特征越重要。假設需要評估20個特征的重要性,傳統的做法就是分別運行20次AUC任務,每次掩蓋掉一個特征,最后分別計算AUC的下降程度。
但是這種特征選擇方法,在特征規模龐大時,效率非常低。如何提高特征選擇的效率,成為亟待解決的技術問題。
發明內容
本申請提供一種特征選擇方法、裝置、電子設備和存儲設備,解決了現有技術中針對大規模數據的特征空間進行特征選擇效率較低的問題。
本申請提供一種特征選擇方法,包括:
獲得原始樣本;
對所述原始樣本進行復制,得到所述原始樣本的復制樣本,所述復制樣本中的特征少于其對應的原始樣本中的特征;
將不同原始樣本對應的復制樣本中包含相同特征的復制樣本分入同一個復制樣本組;
獲得復制樣本組的模型評估指標;
根據所述復制樣本組的模型評估指標,從所述原始樣本中的特征中篩選出用于訓練機器學習模型的目標特征。
可選的,所述對所述原始樣本進行復制,得到所述原始樣本的復制樣本,所述復制樣本中的特征少于其對應的原始樣本中的特征,包括:
針對同一個原始樣本,對所述原始樣本的特征進行統計,獲得所述原始樣本的特征的第一數量;
對所述原始樣本中指定的特征進行復制,獲得所述第一數量的復制樣本,其中,所述指定的特征比原始樣本的特征少一個,同一個原始樣本對應的復制樣本去除的特征互不相同。
可選的,所述將不同原始樣本對應的復制樣本中包含相同特征的復制樣本分入同一個復制樣本組,包括:
將不同原始樣本對應的復制樣本中,去除相同特征的復制樣本劃分為一組,得到復制樣本組。
可選的,所述獲得復制樣本組的模型評估指標,包括:
將復制樣本組分成子復制樣本組;
基于第二數量的子復制樣本組分別進行機器學習,得到第二數量的第一混淆矩陣數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010551883.0/2.html,轉載請聲明來源鉆瓜專利網。





