[發明專利]一種基于森林算法的特征選擇方法、裝置及系統在審
| 申請號: | 202010223460.6 | 申請日: | 2020-03-26 |
| 公開(公告)號: | CN113449752A | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 賈冬冬;魯威;孫遷 | 申請(專利權)人: | 蘇寧云計算有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 森林 算法 特征 選擇 方法 裝置 系統 | ||
1.一種基于森林算法的特征選擇方法,其特征在于,所述方法包括如下步驟:
初始化數據集,確定每個特征子集大小;
遍歷所述數據集中所有特征,將所述所有特征進行分組;
計算每個所述特征子集需添加的鄰居特征子集數量,將所述鄰居特征子集加入所述數據集;
提取部分特征子集構建候選集;
選擇所述候選集中的部分特征子集,遍歷該部分特征子集,將該部分特征子集加入所述數據集;
確定所述數據集的最優特征子集,繼續計算所述最優特征子集需添加的鄰居特征子集數量,滿足迭代次數時停止,得到全局最優特征子集。
2.根據權利要求1所述的方法,其特征在于,所述初始化數據集,確定每個特征子集大小,進一步包括:
確定所述特征子集大小;
初始化所述特征子集的每個特征,每個所述特征隨機初始化特征值為0或1;
設置所有所述特征子集的當前值為0。
3.根據權利要求2所述的方法,其特征在于,所述特征子集大小通過選址機制確定,所述選址機制為:
其中,f表示原始數據集中的特征數量,sf表示特征子集中初始化特征值為1的特征數量,l表示f與sf的距離,P(sf)表示決定初始化特征數量sf的權重值。
4.根據權利要求3所述的方法,其特征在于,所述遍歷所述數據集中所有特征,將所述所有特征進行分組,進一步包括:
遍歷所述數據集中所有特征,分別計算所有所述特征的重要度;
依次排序每個所述特征的重要度;
按照所述重要度將所有所述特征分為高質量特征組和低質量特征組,所述高質量特征組中最低的重要度不低于所述低質量特征組中任意特征的重要度。
5.根據權利要求4所述的方法,其特征在于,所述計算每個所述特征子集需添加的鄰居特征子集數量,將所述鄰居特征子集加入所述數據集,進一步包括:
遍歷當前值為0的特征子集,計算所述特征子集的待添加鄰居特征子集的數量;
從所述高質量特征組隨機選取|a-α|個特征添加到當前鄰居特征子集,且從所述低質量特征組隨機選取|b-β|個特征并從當前鄰居特征子集中移除對應的特征,其中,a表示高質量特征組的特征數量,α表示增加特征的數量,b表示低質量特征組的特征數量,β表示移除當前特征子集中特征的數量,α=λ*sf,β=(1-λ)*sf,λ為常數;
設置所述鄰居特征子集的當前值為0,并加入所述數據集中。
6.根據權利要求5所述的方法,其特征在于,所述提取部分特征子集構建候選集,進一步包括:
計算所述數據集中每一所述特征子集的適應度并排序;
選擇適應度低的特征子集構建候選集,所述適應度值低的特征子集的數量為所述數據集中所有特征子集的數量與預設最大約定數量的差值。
7.根據權利要求6所述的方法,其特征在于,所述選擇所述候選集中的部分特征子集,遍歷該部分特征子集,將該部分特征子集加入所述數據集,進一步包括:
從所述候選集中選取部分特征子集;
遍歷所述選取的每個特征子集,從所述低質量特征組隨機選取一定數量的特征添加到當前特征子集,且從所述高質量特征組隨機選取一定數量的特征并從當前特征子集中移除對應的特征;
設置當前特征子集的當前值為0,并加入所述數據集中。
8.根據權利要求7所述的方法,其特征在于,所述確定所述數據集的最優特征子集,繼續計算每個所述特征子集需添加的鄰居特征子集數量,滿足迭代次數時停止,得到全局最優特征子集,進一步包括
根據所述數據集中特征子集的適應度進行排序,確定適應度最高的特征子集為最優特征子集;
設置所述最優特征子集的當前值為0,跳轉計算所述最優特征子集需添加的鄰居特征子集數量,直到滿足迭代次數時停止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧云計算有限公司,未經蘇寧云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010223460.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水聲信號處理裝置
- 下一篇:一種被用于無線通信的通信節點中的方法和裝置





