[發明專利]一種軟件缺陷預測數據處理方法、裝置及存儲介質有效
| 申請號: | 202010738033.1 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111782548B | 公開(公告)日: | 2022-04-05 |
| 發明(設計)人: | 燕雪峰;張雨青 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 軟件 缺陷 預測 數據處理 方法 裝置 存儲 介質 | ||
本發明公開了一種軟件缺陷預測數據處理方法,該方法通過對缺陷樣本的各特征建立獨立的特征分布模型,并采用隨機變異的方式對部分特征進行替換,從而獲得新的缺陷樣本,不斷補充新樣本直至非缺陷樣本和缺陷樣本比例達到平衡,得到處理后的軟件缺陷預測數據集,用于后續模型訓練。本發明還提供了基于上述方法的軟件缺陷預測數據處理裝置及機器存儲介質,解決了現有技術中普遍存在的缺陷樣本數目少于非缺陷樣本數目造成的缺陷樣本識別能力不足問題,有效提高軟件缺陷預測的精度。
技術領域
本發明涉及一種補充數據集生成方法及裝置,尤其涉及一種軟件缺陷預測數據處理方法、裝置及存儲介質。
背景技術
軟件缺陷預測可以幫助開發人員在軟件產品進入測試階段前,定位工程中具有缺陷傾向的模塊,更加合理地分配有限的測試資源,提高軟件產品的質量。在軟件缺陷預測過程中,通常利用歷史缺陷數據訓練二元分類器將待預測的軟件模塊分為缺陷類和非缺陷類,以分類結果作為對該模塊缺陷傾向的判斷依據。然而,在軟件缺陷預測數據集中,缺陷樣本的數量往往遠遠少于非缺陷樣本的數量,因此生成的模型往往會偏向于數目較多的非缺陷類,導致對于缺陷樣本的識別能力不足。因此,在軟件缺陷預測模型訓練開始之前,有必要對數據集進行一定處理,使缺陷樣本與非缺陷樣本數目一致。
目前,針對此類問題,大多采用傳統的基于樣本插值的重采樣方法生成新的缺陷樣本從而使其數目與非缺陷樣本數目一致,其中以SMOTE方法為代表,衍生了一系列鄰近插值方法,其基本原理是在鄰近的缺陷樣本之間線性插值生成新樣本。此類方法可以生成與原有樣本高度相似的樣本,最大限度地保留原始數據特征,但由于在線性插值時只考慮了局部樣本信息,且特征之間相互限制(由于新樣本只能存在于兩個父樣本之間的連線上,一旦一個特征確定,其他所有特征都無法改變),生成的新樣本與原有樣本過于相似,因此處理后的數據集無法有效提高模型對于不同缺陷樣本的識別能力。
發明內容
發明目的:本發明提出一種在維持數據原有特征分布基本不變的前提下合成覆蓋范圍更廣的缺陷樣本的方法,可應用于軟件缺陷預測中。本發明的另一目的在于提供基于上述方法的裝置和可讀存儲介質。
技術方案:本發明所述的軟件缺陷預測數據處理方法,其特征在于,包括步驟:
(1)獲取帶標簽的軟件模塊的歷史缺陷數據集;
(2)計算所述歷史缺陷數據集中非缺陷樣本與缺陷樣本的比例,若比例高于極度不平衡閾值,則隨機刪除部分非缺陷樣本使比例降至閾值,否則直接進行下一步;
(3)計算需要合成的缺陷樣本數目,使得合成后的缺陷樣本數目與非缺陷樣本數目一致;
(4)對缺陷樣本中各特征分別建立獨立的特征分布模型;
(5)根據所述特征分布模型的采樣值,對原始缺陷樣本中對應特征的值進行替換,合成新的缺陷樣本;重復步驟(5)直至達到需要合成的缺陷樣本數目;
(6)將新的缺陷樣本與步驟(2)保留下的樣本合并,得到處理后的軟件缺陷數據集。
本發明在軟件缺陷預測數據處理中的樣本合成階段,引入核密度估計為不同特征構建相互獨立的特征分布模型,然后基于已有的少數類樣本,將其隨機選取的部分特征值變異為新的特征值,其余特征值保持不變來合成新樣本。
所述步驟(4)通過對每個特征構建互相獨立的模型,以避免特征之間的相互限制,擴大覆蓋范圍。進一步地,所述步驟(4)具體包括:
(41)計算缺陷樣本中各特征的獨立的概率密度函數,記作fPDF1(x),fPDF2(x),…,fPDFm(x),其中m為特征數,x表示待估算特征的取值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010738033.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種裂縫貫通巖層的判別方法
- 下一篇:一種基于溫差發電的半導體制冷散熱裝置





