[發明專利]基于改進的Adaboost軟件缺陷不平衡數據分類方法在審
| 申請號: | 201610004546.3 | 申請日: | 2016-01-04 |
| 公開(公告)號: | CN105677564A | 公開(公告)日: | 2016-06-15 |
| 發明(設計)人: | 李克文;鄒晶杰 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62;G06N3/12 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 adaboost 軟件 缺陷 不平衡 數據 分類 方法 | ||
技術領域
本發明屬于軟件工程應用領域,具體涉及一種基于改進的Adaboost軟件 缺陷不平衡數據分類方法。
背景技術
隨著當代信息技術的高速發展,軟件系統已經運用到國防建設、國民經濟 的各個方向和部門,以及人類活動的各個領域。軟件系統所發揮的作用越來越 大,相應地其規模也日益增大。例如,美國電信需要一個有超過一億行代碼的 系統進行支持;航天飛機的機載系統有著近50萬行的代碼,地面控制系統及 處理系統代碼約有35萬行,即使在對系統進行了大規模的縮減后,仍有將近 百萬行的代碼來操縱整個航天系統。高穩定性對于這些裝備來說極其重要,而 大部分的裝備系統的穩定性由計算機軟件系統的安全性和可靠性決定的。因 此,軟件系統的穩定性和可靠性直接關系到整個系統的可靠性。
由于各種原因,一些軟件的缺陷是不可避免的發生,這些錯誤導致了軟件 缺陷隱含在軟件中。對于隱藏的缺陷,如果不能及時地、準確地發現,有效地 排除,將會對軟件質量產生很大影響,甚至給軟件使用者帶來災難性后果。曾 有研究表明,專業軟件開發人員平均每一千行代碼就有6個缺陷,更糟糕的是 隨著軟件規模增加,軟件內在的缺陷數量呈指數增長。軟件缺陷的過多導致缺 陷定位和測試修復成本大大增加。例如,微軟平均定位和修改一個軟件缺陷需 要12個小時;美國聯邦調查局研究顯示,有軟件故障造成的直接經濟損失達 600億美元。
為了提高軟件系統質量,學者們提出了軟件缺陷預測的概念,軟件缺陷預 測可以幫助開發者更快地找到存在缺陷的模塊,提高軟件質量。軟件缺陷預測 的關鍵是發現有缺陷的模塊,這實際上是一個二分類問題,即將軟件模塊分為 “無缺陷”和“有缺陷”兩個類。但是由于軟件模塊中存在缺陷的模塊要遠少 于無缺陷的模塊,所以這也是不平衡數據的分類問題。目前,對于平衡數據的 分類技術已經相對比較成熟,然而,面向不平衡數據的分類,特別是面向軟件 缺陷數據的分類問題仍需投入大量的研究。
綜上,在當前互聯網軟件產品迅速發展的形勢下,解決軟件缺陷數據的不 平衡性,提出高效的軟件缺陷預測模型即對軟件模塊進行正確分類,是迫切需 要解決的問題。
發明內容
本發明的目的是克服軟件缺陷數據的不平衡性,對軟件模塊進行準確分 類,提供一種基于改進的Adaboost軟件缺陷不平衡數據分類方法。
為實現上述目的,本發明技術方案主要包括以下三個步驟:
A.從軟件數據集中獲取數據,包括軟件特征集和軟件模塊,并對其進行預處 理。將軟件模塊數據分為訓練集和測試集以備訓練和測試。本發明采用十 次交叉驗證,將數據集分成十份,其中九份做訓練,一份做測試。
B.利用基于改進的遺傳算法與BP神經網絡結合進行軟件數據的特征選擇,得 到最優特征子集,從而對軟件特征進行降維處理,減少運算時間。
(1)隨機產生初始種群,種群大小為P。對特征集進行二進制編碼,0代 表選擇特征,1表示不選擇特征。
(2)以BP神經網絡訓練數據集,根據預測誤差調整網絡的權值和閾值。
(3)利用遺傳算法對BP神經網絡進行優化,進行選擇、交叉、變異的操 作。為充分考慮軟件數據集的不平衡性,適應度函數采用普遍適用于不平衡數 據分類評價的Gmeans,較高的Gmeans值表示分類器是平衡的,即對兩個類 的分類來說都有好的性能。定義如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610004546.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種系統的內存管理方法及裝置
- 下一篇:一種機器人日志管理方法及服務器





