[發(fā)明專利]一種基于主成分分析和組合采樣的軟件缺陷預(yù)測方法在審
| 申請?zhí)枺?/td> | 201910298450.6 | 申請日: | 2019-04-15 |
| 公開(公告)號: | CN109933539A | 公開(公告)日: | 2019-06-25 |
| 發(fā)明(設(shè)計)人: | 何海濤;任家東;張旭;胡昌振 | 申請(專利權(quán))人: | 燕山大學(xué) |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36 |
| 代理公司: | 北京挺立專利事務(wù)所(普通合伙) 11265 | 代理人: | 劉陽 |
| 地址: | 066004 河北省*** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 軟件缺陷 隨機采樣 采樣 分層 主成分分析 預(yù)測 分類器 過采樣 降維 樣本 隨機森林分類器 分類器參數(shù) 理論和實驗 軟件提供 數(shù)據(jù)集中 數(shù)據(jù)利用 數(shù)據(jù)選取 數(shù)據(jù)執(zhí)行 隨機選擇 特征選擇 特征子集 預(yù)測性能 隨機化 擬合 去噪 融合 平衡 | ||
1.一種基于主成分分析和組合采樣的軟件缺陷預(yù)測方法,其特征在于,包括如下步驟:
步驟S1:對軟件缺陷數(shù)據(jù)利用融合特征選擇降維去噪;
步驟S2:對降維后的數(shù)據(jù)執(zhí)行SMOTE過采樣和分層隨機采樣相結(jié)合進行采樣,其中過采樣是指通過增加少數(shù)類樣本的數(shù)量,從而使得數(shù)據(jù)集中類樣本達到相對平衡,分層隨機采樣通過劃分類進行分層,在每層內(nèi)采用無放回隨機采樣;
步驟S3:對處理后的數(shù)據(jù)選取分類器并對分類器參數(shù)進行調(diào)優(yōu)。
2.根據(jù)權(quán)利要求1所述的軟件缺陷預(yù)測方法,其特征在于,步驟S1利用主成分分析法去除軟件缺陷數(shù)據(jù)集中無關(guān)和冗余屬性進行降維去噪,其中,主成分分析方法將m維特征通過線性變換映射到新的d維正交特征上,其中d<m,同時保留原始特征的絕大部分信息,并將重新構(gòu)造出來的d維特征稱為主元,從而使得數(shù)據(jù)由原來的m個特征降低到d個特征,具體包括如下步驟:
步驟S101:將軟件缺陷數(shù)據(jù)集以矩陣Xn×m形式輸入Xm×n,其中矩陣的行數(shù)n表示軟件缺陷數(shù)據(jù)集中樣本的個數(shù),列數(shù)m表示每個樣本的特征數(shù)目;
步驟S102:按列計算矩陣Xn×m的均值,從而得到均值矩陣并將矩陣Xn×m中的每一行元素均減去得到進行中心化的樣本Hn×m;
步驟S103:計算中心化后樣本Hn×m的協(xié)方差矩陣HHT,并對協(xié)方差矩陣進行特征值分解,求得對應(yīng)的m個特征向量ω,然后將m個特征值λ進行降序排序,排序結(jié)果為λ1≥λ2≥...≥λm,最后,通過計算貢獻率并為其設(shè)定一個閾值為0.95,確定滿足貢獻率不小于此閾值的d值,取最大的d個特征值所對應(yīng)的特征向量ω1,ω2,...,ωd,從而得到投影矩陣W*=(ω1,ω2,...,ωd),其中d為通過主成分分析法降維后的維度。
3.根據(jù)權(quán)利要求1所述的軟件缺陷預(yù)測方法,其特征在于,所述分層隨機采樣采用無放回的隨機采樣,通過對無放回分層隨機采樣中采樣率的調(diào)整使得子樣本在保證類別分布不變的同時也減少了樣本數(shù)量,從而克服SMOTE算法中訓(xùn)練模型效率降低,相應(yīng)提高預(yù)測準(zhǔn)確率。
4.根據(jù)權(quán)利要求3所述的軟件缺陷預(yù)測方法,其特征在于,步驟S2具體包括:
對數(shù)據(jù)采用SMOTE算法合成少類樣本,其中參數(shù)k表示在合成少類樣本時,需從與當(dāng)前所選樣本距離相對較近的k少類樣本中隨機選取一個樣本來進行新樣本的合成,其中k的值為weka中的默認值5,采樣倍率設(shè)為100%,不斷進行迭代,直至有無缺陷樣本達到相對平衡;
對相對平衡后的數(shù)據(jù)集進行無放回分層采樣,采樣率的設(shè)定為[0.1,1.0],步長為0.1,采樣率為0.8。
5.根據(jù)權(quán)利要求1所述的軟件缺陷預(yù)測方法,其特征在于,所述步驟S3采用經(jīng)過網(wǎng)格搜索算法調(diào)參的隨機森林分類器進行分類,具體包括如下步驟:
步驟S301:需要對隨機森林分類器的兩個參數(shù)決策樹數(shù)目以及分裂屬性數(shù)設(shè)定相應(yīng)的范圍和步長,并分別以這兩個參數(shù)作為橫縱坐標(biāo)軸,建立二維坐標(biāo)系,通過在坐標(biāo)系中不斷取點得到二維網(wǎng)格;
步驟S302:將網(wǎng)格中節(jié)點的每一數(shù)對分別作為參數(shù)的取值構(gòu)建隨機森林,并采用交叉驗證估計分類誤差;
步驟S303:選擇分類誤差最小的最優(yōu)參數(shù)組合,直至分類誤差或者步長滿足要求為止,輸出此組合,否則,嘗試縮短步長,重復(fù)步驟S301。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于燕山大學(xué),未經(jīng)燕山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910298450.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種軟件缺陷量化管理系統(tǒng)和方法
- 一種基于移動即時通訊軟件的軟件缺陷智能跟蹤管理方法
- 軟件缺陷數(shù)據(jù)處理方法和裝置
- 一種軟件缺陷統(tǒng)計處理方法及裝置
- 一種基于多源數(shù)據(jù)的軟件缺陷信息融合方法
- 軟件缺陷分析錄入方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種基于代碼語義及背景信息的軟件缺陷數(shù)據(jù)采集系統(tǒng)
- 軟件缺陷的信息展示方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種基于有序神經(jīng)網(wǎng)絡(luò)的軟件缺陷模塊嚴(yán)重程度預(yù)測方法
- 軟件缺陷預(yù)測方法及系統(tǒng)





