[發明專利]面向軟件缺陷數據的特征選擇及分類方法在審
| 申請號: | 201511003241.2 | 申請日: | 2015-12-28 |
| 公開(公告)號: | CN105389598A | 公開(公告)日: | 2016-03-09 |
| 發明(設計)人: | 李克文;鄒晶杰 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山東省青*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 軟件 缺陷 數據 特征 選擇 分類 方法 | ||
技術領域
本發明屬于軟件工程應用領域,具體涉及一種面向軟件缺陷數據的特征選擇及分類方法。
背景技術
目前,軟件系統規模日益增大并且其邏輯復雜性也日益增強,伴隨著軟件中存在缺陷的模塊增加,這勢必威脅軟件的可靠性,影響軟件質量,造成不可估量的損失。軟件缺陷預測技術作為指導和評估軟件測試工作的一種重要的途徑,可以準確地預測軟件缺陷的分布情況,這對于提高軟件質量有著重要的現實意義。針對一個軟件系統,合理地預測缺陷可以統計尚未發現但仍存在的缺陷數目及缺陷分布。軟件缺陷預測的關鍵是發現有缺陷的模塊,這本質上是一個二分類問題,即將軟件模塊分為“有缺陷”和“無缺陷”兩類。分類的前提是進行特征選擇,根據選擇出的最優特征子集進行分類。但在實際操作中,軟件缺陷預測過程存在以下兩個難點:
(1)軟件特征存在大量冗余特征
2004年,美國宇航局公開了軟件數據集(NASAMDP),他們從源代碼中提取的各種軟件特征,主要包括三大類--LOC,McCabe和Halstead。在每一類軟件特征中,除了基本特征是從源代碼中直接抽取,其他的特征都是由這些基本特征值間接計算獲得。且有實驗證明,只需要三個重要的軟件特征就可以預測軟件模塊是否含有缺陷。可見,每一類軟件特征中,存在著較多的冗余特征。大量的冗余或不相關特征參與運算,勢必會降低運算速度和效率。因此,需要對軟件特征進行降維處理,根據軟件特征的類別,在每一類中選擇出對軟件缺陷預測影響力大的特征即可。
(2)軟件模塊數據存在嚴重的不平衡性
在實際的軟件模塊中,“有缺陷”的模塊(少數類)數量要遠遠少于“無缺陷”(多數類)的模塊,因此,軟件缺陷預測也是不平衡數據的分類問題,這也是數據挖掘近年來的研究熱點。在預測過程中,目標是檢測出“有缺陷”的模塊進行修復。但軟件數據集中存在大量的多數類即無缺陷模塊,它們在運算中耗費大量的時間和資源。因此,盡快準確地檢測出“無缺陷”的多數類并將其移除數據集從而降低后續的運算量,這對于提高整個分類過程的效率意義重大。
針對以上兩個問題,研究出一套完整的符合軟件數據特性的特征選擇及分類方法,這對于提高軟件缺陷預測效果、降低運算時間,意義重大。
發明內容
本發明的目的是解決面向軟件缺陷數據的特征選擇及分類方法所存在的效率低、耗時久的問題,提供一種面向軟件缺陷數據的特征選擇及分類方法,以減少運算時間,提高運算效率。
為實現上述目的,本發明技術方案主要包括以下四個步驟:
A.從軟件數據集中獲取數據,對數據進行預處理
(1)數據包括軟件特征集、軟件模塊,將軟件模塊數據分為訓練集和測試集以備訓練和測試。本發明采用十次交叉驗證,將數據集分成十份,其中九份做訓練,一份做準確度測試。并將數據做標簽處理。
(2)根據已有知識將特征集分類,得到三個特征集,分別是LOC類,McCabe類和Halstead類。
B.根據互信息理論獲得最優軟件特征集
(1)根據互信息理論計算出三個特征集中的每個特征fi與類y1和y2的相關性,根據相關性大小按降序排列,在三個特征集中只取相關性排名前50%的特征,得到三個篩減后的特征子集。
(2)分別計算三個篩減后的特征子集中各個特征間的相關性,去除與排名前30%的特征相關性大的特征,保證最終的最優特征子集為S,大小為t且S={L,M,H}。
C.對選擇出的軟件特征按分類效果進行排序
(1)將得到的最優特征,依次輸入SVM并對其進行訓練。
(2)將訓練好的分類模型作用于測試集,得到分類結果后,根據Gmeans值的大小對軟件特征進行從小到大排序,按順序依次取每類特征的一個元素,組成最優特征子集的三元組,記為(l,h,m),則最優特征子集S可表示為:S={(l,h,m)|l∈L,h∈H,m∈M}。
D.利用二維循環級聯Adaboost以及特征集S對軟件模塊進行分類
(1)設定級聯結構為五級,每一級均為Adaboost分類器。每個Adaboost分類器由若干個弱分類器(分類錯誤率<0.5)加權集成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201511003241.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





