[發(fā)明專利]一種軟件缺陷預測數據處理方法、裝置及存儲介質有效
| 申請?zhí)枺?/td> | 202010738033.1 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111782548B | 公開(公告)日: | 2022-04-05 |
| 發(fā)明(設計)人: | 燕雪峰;張雨青 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 軟件 缺陷 預測 數據處理 方法 裝置 存儲 介質 | ||
1.一種軟件缺陷預測數據處理方法,其特征在于,包括步驟:
(1)獲取帶標簽的軟件模塊的歷史缺陷數據集;
(2)計算所述歷史缺陷數據集中非缺陷樣本與缺陷樣本的比例,若比例高于極度不平衡閾值,則隨機刪除部分非缺陷樣本使比例降至閾值,否則直接進行下一步;
(3)計算需要合成的缺陷樣本數目,使得合成后的缺陷樣本數目與非缺陷樣本數目一致;
(4)對缺陷樣本中各特征分別建立獨立的特征分布模型;
所述步驟(4)包括:
(41)計算缺陷樣本中各特征的獨立的概率密度函數,記作fPDF1(x),fPDF2(x),…,fPDFm(x),其中m為特征數,x表示待估算特征的取值;
(42)根據fPDF1(x),fPDF2(x),…,fPDFm(x)計算各特征的累計分布函數fCDF1(x),fCDF2(x),…,fCDFm(x),將累計分布函數作為特征分布模型;
所述步驟(42)包括:
利用微元法將各個特征的概率密度函數fPDF1(x),fPDF2(x),…,fPDFm(x)轉化為對應的累計分布函數fCDF1(x),fCDF2(x),…,fCDFm(x),轉化公式為:
其中,x表示待估算特征的取值;xmin和xmax分別表示該特征在缺陷樣本中的最小取值與最大取值;k表示區(qū)間[xmin,xmax]中(xmax-xmin)/Δt個微元的對應序號,Δt表示積分變量t對應的微元;
(5)根據所述特征分布模型的采樣值,對原始缺陷樣本中對應特征的值進行替換,合成新的缺陷樣本;重復步驟(5)直至達到需要合成的缺陷樣本數目;
(6)將新的缺陷樣本與步驟(2)保留下的樣本合并,得到處理后的軟件缺陷數據集。
2.根據權利要求1所述的軟件缺陷預測數據處理方法,其特征在于,所述步驟(41)采用核密度估計方法,計算每個特征的概率密度函數,如下公式:
其中,x表示待估算特征的取值,xi表示第i個原始缺陷樣本的對應特征值,表示特征值為x時對應的概率密度估計值,n表示原始缺陷樣本中對應特征的數目,K(·)表示放縮函數。
3.根據權利要求2所述的軟件缺陷預測數據處理方法,其特征在于,所述放縮函數采用高斯分布函數,如下公式所示:
X=x-xi,i=1,...,n
其中,x表示待估算特征的取值,xi表示第i個原始缺陷樣本的對應特征值,n表示原始缺陷樣本中對應特征的數目。
4.根據權利要求1所述的軟件缺陷預測數據處理方法,其特征在于,所述步驟(5)包括:
(51)隨機選擇一個缺陷樣本作為模板,然后產生一個0~0.5之間的隨機數作為變異率vr,從m個特征中隨機選取vr×m個特征作為待變異特征;
(52)對變異特征j,產生一個0到1之間均勻分布的隨機數y,令fCDFj(x)=y,其中,x為變異特征j對應特征分布模型的采樣點;
(53)重復步驟(51)-(52),直至所有待變異特征值替換為對應特征分布模型的采樣值,得到一個新的缺陷樣本。
5.一種軟件缺陷預測數據處理裝置,其特征在于,該裝置包括:存儲器、處理器及在所述存儲器上存儲并可運行的軟件缺陷預測數據處理的程序,所述軟件缺陷預測數據處理的程序被處理器執(zhí)行時實現如權利要求1至4中任一項所述軟件缺陷預測數據處理方法的步驟。
6.一種機器可讀存儲介質,其特征在于,所述機器可讀存儲介質上存儲有軟件缺陷預測數據處理的程序,所述軟件缺陷預測數據處理的程序被處理器執(zhí)行時實現如權利要求1至4中任一項所述軟件缺陷預測數據處理方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010738033.1/1.html,轉載請聲明來源鉆瓜專利網。





