[發明專利]一種改進基于相關性特征選擇的特征過濾方法及裝置在審
| 申請號: | 201910334368.4 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110135469A | 公開(公告)日: | 2019-08-16 |
| 發明(設計)人: | 崔燦;劉斌;李國旗 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征選擇 軟件缺陷 特征過濾 預測模型 預處理 數據預處理 準確度 方法選擇 冗余特征 軟件預測 原始數據 相似度 構建 排序 過濾 改進 分類 預測 統計 | ||
1.一種改進基于相關性特征選擇的特征過濾方法,其特征在于,包括:
將用于缺陷預測分類任務的N個數據集中類標簽的數值類型轉換為二元類型;
統計每個特征在原始數據集中的平均占比重率;
統計每個特征經過基礎特征選擇篩選后在數據集中的平均占比重率;
計算各個特征在原始數據集中的平均占比重率與用特征選擇篩選后各個特征的平均占比重率的相似度;
將所述相似度按由大到小的順序排列,選擇所述相似度排名前K個特征作為特征選擇結果,完成特征過濾。
2.如權利要求1所述的一種改進基于相關性特征選擇的特征過濾方法,其特征在于,還包括:
將所述特征選擇結果構成數據集,并根據機器學習算法構建缺陷分類預測模型,采用分類任務的性能評價指標對其性能進行評估。
3.如權利要求1所述的一種改進基于相關性特征選擇的特征過濾方法,其特征在于,統計每個特征在原始數據集中的平均占比重率,包括:
統計每個數據集Si中所有特征的數量,記為MSi,i=1,2,…,N;MSi的最大值為k,0≤k≤N;
計算每個特征在所有原始數據集中所占的比重和,記為Cfj,計算如公式(1)所示:
其中,i表示當前數據集的索引編號,i=1,2,…,N;j表示特征索引編號,j=1,2,…,k;fj表示數據集中的每個特征;fji表示特征j是否出現在數據集i中;fji=1或0,表示出現或不出現;S′i表示每個數據集;MSi表示每個數據集中所有特征的數量;
計算每個特征在原始數據集中占有的平均比重率,記為Fj,計算如公式(2)所示:
其中,Cfj表示每個特征在所有原始數據集中所占的比重和;N表示數據集的數量;Si表示每個數據集;MSi表示每個數據集中所有特征的數量;
當某一特征在原始數據集中出現的比重和小于預設閾值,則刪除所述某一特征。
4.如權利要求1所述的一種改進基于相關性特征選擇的特征過濾方法,其特征在于,統計每個特征經過基礎特征選擇篩選后在數據集中的平均占比重率,包括:
使用基礎特征選擇,對所有數據集進行特征過濾,生成數據子集;
統計每個特征在所有數據子集中所占的比重和,如公式(3)所示,并計算選擇的所有特征子集的數量均值,如公式(4)所示:
其中,S′i表示所有數據集經過基礎特征選擇篩選后剩余的特征子集,i=1,2,…,N;f′ji表示特征j是否出現在數據子集S′i中;fji=1或0,表示出現或不出現;表示表示特征子集的特征數量;表示每個特征在所有數據子集S′i中所占的比重和;
其中,表示特征子集的大小;N表示數據子集的數量;M0表示所有特征子集的數據的平均值。
計算每個特征在數據子集中的平均占比重率,記為Pj,計算如公式(5)所示:
表示每個特征在所有數據子集S′i中所占的比重和;N表示數據子集的數量;Pj表示每個特征在數據子集中的平均占比重率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910334368.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種煤矸石的識別方法
- 下一篇:一種基于多模態車輛特征識別的車輛特征融合系統





