[發明專利]一種改進基于相關性特征選擇的特征過濾方法及裝置在審
| 申請號: | 201910334368.4 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110135469A | 公開(公告)日: | 2019-08-16 |
| 發明(設計)人: | 崔燦;劉斌;李國旗 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征選擇 軟件缺陷 特征過濾 預測模型 預處理 數據預處理 準確度 方法選擇 冗余特征 軟件預測 原始數據 相似度 構建 排序 過濾 改進 分類 預測 統計 | ||
本發明公開了一種改進基于相關性特征選擇的特征過濾方法及裝置,該方法針對軟件缺陷預測中的分類任務,通過統計使用CFS方法選擇的各個特征的占比重率與特征在原始數據集中占比重率來計算兩者的相似度,并通過排序選出排名前K個特征,解決了特征選擇中過濾方法效率高但預測模型性能差的問題,并且實現對軟件預測模型的數據預處理指導,滿足在數據充足但數據中存在無關特征或冗余特征情況下,對數據進行預處理,提高數據質量的需求;另一方面,該方法簡單、容易實現、運行時間短,構建的軟件缺陷預測模型準確度高。
技術領域
本發明涉及軟件缺陷預測技術領域,特別涉及一種改進基于相關性特征選擇的特征過濾方法及裝置。
背景技術
近年來,軟件缺陷預測已經在軟件工程中成為一個活躍的領域,通過軟件之前版本歷史知識或其他軟件的相關缺陷知識對新開發軟件或被測軟件缺陷進行預測,可以預先了解軟件各個模塊(或類,或子系統,或函數)的質量狀況。這樣,可以為軟件測試人員、管理人員、可靠性設計人員等相關人員提供一定的指導,使其合理地分配相關的人力、資源,節約開發成本,提高軟件開發效率。
缺陷預測最主要的部分是數據,數據的質量決定了預測的準確度。而軟件缺陷相關數據往往包含多個度量元和缺陷類標簽,類標簽通常為二值型或數值型。由于收集的缺陷數據中特征維度很高,因此,有些特征與特征之間有很強的關聯性(冗余性),而有的特征與類之間存在無關性。無論是特征冗余還是無關,都有可能會降低構建的軟件缺陷預測模型的性能,從而導致預測準確度降低。因此,對特征進行過濾、篩選,即對數據進行預處理,提高數據質量的目的是很有必要的。
目前,已經有很多學者提出了不同的特征選擇方法,包括過濾法(filter)和包裝法(wrapper)。過濾法是指通過使用相關性等指標對軟件的特征進行評分,選出分數大于閾值或者排名前K個的特征作為構建模型的特征。例如,基于相關性特征選擇方法(correlation based feature selection,簡稱CFS)(Hall M A,Smith L A.FeatureSelection for Machine Learning:Comparing a Correlation-Based Filter Approachto the Wrapper.[C]//Twelfth International Florida Artificial IntelligenceResearch Society Conference.DBLP,1999.)。包裝法與過濾法不同,該方法是考慮后續使用的學習器,選擇特征子集,以學習器的性能評價指標作為特征子集的評價標準。如:序列化前向選擇(Sequential forward selection,簡稱SFS)(Cotter S F,Adler R,Rao R D,et al.Forward sequential algorithms for best basis selection[J].Vision,Imageand Signal Processing,IEE Proceedings,1999,146(5):235-244.)、序列化后向消除(Sequential backward elimination,簡稱SBE)(J.Kittler,Pattern Recognition andSignal Processing,Alphen aan den Rijn,The Netherlands:Sijthoff and Noordhoff,1978,ch.Feature Set Search Algorithms,pp.41-60.)、束搜索(beam search)(W.Siedelecky and J.Sklansky.On automatic feature selection.InternationalJournal of Pattern Recognition,1988,Vol.2,pp 197-220)。包裝法由于涉及后續使用的學習器,方法復雜,且運行時間長。通常容易適應學習器,性能較好。過濾法不涉及后續的學習器,方法具有簡單、易用、容易理解、運行時間短等優點,但往往在學習模型時性能不高。而成本和效率在軟件開發過程中是軟件相關人員最為在意的一點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910334368.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種煤矸石的識別方法
- 下一篇:一種基于多模態車輛特征識別的車輛特征融合系統





