[發明專利]一種基于主成分分析和組合采樣的軟件缺陷預測方法在審
| 申請號: | 201910298450.6 | 申請日: | 2019-04-15 |
| 公開(公告)號: | CN109933539A | 公開(公告)日: | 2019-06-25 |
| 發明(設計)人: | 何海濤;任家東;張旭;胡昌振 | 申請(專利權)人: | 燕山大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36 |
| 代理公司: | 北京挺立專利事務所(普通合伙) 11265 | 代理人: | 劉陽 |
| 地址: | 066004 河北省*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 軟件缺陷 隨機采樣 采樣 分層 主成分分析 預測 分類器 過采樣 降維 樣本 隨機森林分類器 分類器參數 理論和實驗 軟件提供 數據集中 數據利用 數據選取 數據執行 隨機選擇 特征選擇 特征子集 預測性能 隨機化 擬合 去噪 融合 平衡 | ||
本發明公開了一種基于主成分分析和組合采樣的軟件缺陷預測方法,包括如下步驟:步驟S1:對軟件缺陷數據利用融合特征選擇降維去噪;步驟S2:對降維后的數據執行SMOTE過采樣和分層隨機采樣相結合進行采樣,其中過采樣是指通過增加少數類樣本的數量,從而使得數據集中類樣本達到相對平衡,分層隨機采樣通過劃分類進行分層,在每層內采用無放回隨機采樣;步驟S3:對處理后的數據選取分類器并對分類器參數進行調優。本發明選擇隨機森林分類器,其隨機選擇特征子集的特性,從而進一步達到對樹的隨機化目的,避免了分類器過擬合問題的出現,最終提升了軟件缺陷預測性能以及預測效率,為現實中預測有缺陷軟件提供了良好的理論和實驗依據。
技術領域
本發明涉及缺陷預測方法,尤其涉及到一種基于主成分分析和組合采樣的軟件缺陷預測方法。
背景技術
隨著互聯網技術的發展,軟件產品質量的可靠性已成為軟件工程領域的關注性問題,在軟件開發的過程中必然會伴隨著軟件缺陷的出現。然而,對于本身具有潛在威脅的軟件,一旦投入使用就會對公司乃至個人造成巨大的經濟損失。為了有效解決這一問題,必須準確快速的預測軟件可能存在的缺陷模塊,從而提高軟件系統的可靠性。
目前,相關的軟件缺陷預測方法主要是利用不同類型的機器學習技術。其主要考慮的是整體數據的預測準確率,雖然在此方面取得了較大的成就,但在數據預處理方面還存在很多需要改善的地方。現有技術中已有采用公開的NASA數據集對Random Forest,Naive Bayes,RPart以及SVM分類算法進行了靈敏度分析,表明不同的分類器針對不同數據集預測能力具有不確定性。考慮到這種不確定性,現有技術提出了一種新的貝葉斯組合模型,通過不斷調整基模型的信用值來預測QoS,從而達到良好的預測精度。然而,這些研究并沒有考慮到軟件缺陷預測中的數據高維性和數據分布不均衡,缺陷類樣本數通常比無缺陷類樣本數高很多,導致作為多類的無缺陷樣本特征掩蓋少類的缺陷樣本特征,使得雖整體準確率很高但針對缺陷類樣本的預測性能較差;誤分代價差異較大,將有缺陷傾向的模塊標記為無缺陷傾向模塊后,需要花費很高的代價進行更正等問題。尤其是針對少數類而言,不平衡分布使得某些機器學習方法表現效果不佳。為了解決這一問題,目前在數據層面,采用特征選擇或特征提取,采樣技術應用于數據集。特征選擇或特征提取主要用于解決數據高維性問題,而采樣方法通常是采用給少類樣本隨機加入高斯噪聲或合成新的少類樣本的方法來解決數據類不平衡問題。關于軟件缺陷預測以前的研究表明,特征選擇和特征提取方法確實有助于解決數據高維性這一問題。
發明內容
為了能夠在軟件開發過程中及時準確地預測有缺陷的軟件模塊,提高軟件測試資源的有效分配,針對軟件缺陷預測中的數據類不平衡性和高維性問題,本發明的目的在于提供一種基于主成分分析和組合采樣的軟件缺陷預測方法,本發明首先通過對數據利用融合特征選擇技術去除數據中無關和冗余特征以解決數據集中維度災難問題。進而,執行SMOTE(Synthetic Minority Oversampling Technique)過采樣和無放回分層隨機采樣方法結合來解決由于缺陷類樣本數量過少,使得數據類分布不均衡而且缺陷樣本信息過于缺乏,致使最終將有缺陷模塊被錯誤預測為無缺陷模塊等問題,同時通對采樣率的設定在降低損失代價的同時也提高了軟件缺陷預測效率。
為實現上述目的,本發明是根據以下技術方案實現的:
一種基于主成分分析和組合采樣的軟件缺陷預測方法,其特征在于,包括如下步驟:
步驟S1:對軟件缺陷數據利用融合特征選擇降維去噪;
步驟S2:對降維后的數據執行SMOTE過采樣和分層隨機采樣相結合進行采樣,其中過采樣是指通過增加少數類樣本的數量,從而使得數據集中類樣本達到相對平衡,分層隨機采樣通過劃分類進行分層,在每層內采用無放回隨機采樣;
步驟S3:對處理后的數據選取分類器并對分類器參數進行調優。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于燕山大學,未經燕山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910298450.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面向代價感知的實時缺陷預測模型增強方法
- 下一篇:存儲裝置及其操作方法





