[發(fā)明專利]一種改進基于相關性特征選擇的特征過濾方法及裝置在審
| 申請?zhí)枺?/td> | 201910334368.4 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110135469A | 公開(公告)日: | 2019-08-16 |
| 發(fā)明(設計)人: | 崔燦;劉斌;李國旗 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京慕達星云知識產(chǎn)權代理事務所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征選擇 軟件缺陷 特征過濾 預測模型 預處理 數(shù)據(jù)預處理 準確度 方法選擇 冗余特征 軟件預測 原始數(shù)據(jù) 相似度 構建 排序 過濾 改進 分類 預測 統(tǒng)計 | ||
1.一種改進基于相關性特征選擇的特征過濾方法,其特征在于,包括:
將用于缺陷預測分類任務的N個數(shù)據(jù)集中類標簽的數(shù)值類型轉換為二元類型;
統(tǒng)計每個特征在原始數(shù)據(jù)集中的平均占比重率;
統(tǒng)計每個特征經(jīng)過基礎特征選擇篩選后在數(shù)據(jù)集中的平均占比重率;
計算各個特征在原始數(shù)據(jù)集中的平均占比重率與用特征選擇篩選后各個特征的平均占比重率的相似度;
將所述相似度按由大到小的順序排列,選擇所述相似度排名前K個特征作為特征選擇結果,完成特征過濾。
2.如權利要求1所述的一種改進基于相關性特征選擇的特征過濾方法,其特征在于,還包括:
將所述特征選擇結果構成數(shù)據(jù)集,并根據(jù)機器學習算法構建缺陷分類預測模型,采用分類任務的性能評價指標對其性能進行評估。
3.如權利要求1所述的一種改進基于相關性特征選擇的特征過濾方法,其特征在于,統(tǒng)計每個特征在原始數(shù)據(jù)集中的平均占比重率,包括:
統(tǒng)計每個數(shù)據(jù)集Si中所有特征的數(shù)量,記為MSi,i=1,2,…,N;MSi的最大值為k,0≤k≤N;
計算每個特征在所有原始數(shù)據(jù)集中所占的比重和,記為Cfj,計算如公式(1)所示:
其中,i表示當前數(shù)據(jù)集的索引編號,i=1,2,…,N;j表示特征索引編號,j=1,2,…,k;fj表示數(shù)據(jù)集中的每個特征;fji表示特征j是否出現(xiàn)在數(shù)據(jù)集i中;fji=1或0,表示出現(xiàn)或不出現(xiàn);S′i表示每個數(shù)據(jù)集;MSi表示每個數(shù)據(jù)集中所有特征的數(shù)量;
計算每個特征在原始數(shù)據(jù)集中占有的平均比重率,記為Fj,計算如公式(2)所示:
其中,Cfj表示每個特征在所有原始數(shù)據(jù)集中所占的比重和;N表示數(shù)據(jù)集的數(shù)量;Si表示每個數(shù)據(jù)集;MSi表示每個數(shù)據(jù)集中所有特征的數(shù)量;
當某一特征在原始數(shù)據(jù)集中出現(xiàn)的比重和小于預設閾值,則刪除所述某一特征。
4.如權利要求1所述的一種改進基于相關性特征選擇的特征過濾方法,其特征在于,統(tǒng)計每個特征經(jīng)過基礎特征選擇篩選后在數(shù)據(jù)集中的平均占比重率,包括:
使用基礎特征選擇,對所有數(shù)據(jù)集進行特征過濾,生成數(shù)據(jù)子集;
統(tǒng)計每個特征在所有數(shù)據(jù)子集中所占的比重和,如公式(3)所示,并計算選擇的所有特征子集的數(shù)量均值,如公式(4)所示:
其中,S′i表示所有數(shù)據(jù)集經(jīng)過基礎特征選擇篩選后剩余的特征子集,i=1,2,…,N;f′ji表示特征j是否出現(xiàn)在數(shù)據(jù)子集S′i中;fji=1或0,表示出現(xiàn)或不出現(xiàn);表示表示特征子集的特征數(shù)量;表示每個特征在所有數(shù)據(jù)子集S′i中所占的比重和;
其中,表示特征子集的大小;N表示數(shù)據(jù)子集的數(shù)量;M0表示所有特征子集的數(shù)據(jù)的平均值。
計算每個特征在數(shù)據(jù)子集中的平均占比重率,記為Pj,計算如公式(5)所示:
表示每個特征在所有數(shù)據(jù)子集S′i中所占的比重和;N表示數(shù)據(jù)子集的數(shù)量;Pj表示每個特征在數(shù)據(jù)子集中的平均占比重率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經(jīng)北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910334368.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





