[發明專利]基于皮爾森相關性加權關聯分類規則的軟件缺陷預測方法有效
| 申請號: | 201911114620.7 | 申請日: | 2019-11-14 |
| 公開(公告)號: | CN111090579B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 王世海;邵元勛;劉斌;嚴瀟波 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 皮爾森 相關性 加權 關聯 分類 規則 軟件 缺陷 預測 方法 | ||
本發明公開了一種基于皮爾森相關性加權關聯分類規則的軟件缺陷預測方法,該方法包括根據相應靜態代碼分析工具,提取待檢測軟件度量元數據集;基于皮爾森相關性的特征選擇方法評價每個度量元與類別之間的相關性,并對相關性進行排序,將排序值較大的前30?50%作為被選擇的度量元;將選擇的度量元與相應的類別,代入基于皮爾森相關性加權關聯分類規則的軟件缺陷預測模型,進行預測并輸出預測結果;此方法利用一個有價值的、高性能的和可理解的規則模型,揭示缺陷傾向與特征的關聯性,提高軟件缺陷預測模型的高性能和可理解性,提高了預測結果的準確性。
技術領域
本發明涉及軟件缺陷預測技術領域,特別涉及一種基于皮爾森相關性加權關聯分類規則的軟件缺陷預測方法。
背景技術
隨著軟件規模和復雜性日益增加,保證軟件質量越來越重要。軟件缺陷預測是一種提高軟件質量的方法,也是減輕軟件代碼審查及改善測試資源分配的有效手段。常用的軟件缺陷預測方法主要包含分類、回歸、聚類和關聯規則(association rule)。關聯規則是以挖掘隱含于數據中的關聯關系為目的的算法,采用產生式的表示形式符合人的思維邏輯,其蘊含式:ifXthenC或其中且X∩C=φ,前件X是一組特征(或項或度量元)集合,后件C可以是特征集也可以是類別(如正類和反類),I={I1,I1,···,Im-1,C}是包含m個特征的項集,通常用支持度(support)和置信度(confidence)度量一條關聯規則是否有用,支持度和置信度越大,則規則越有用。支持度揭示了X與C同時發生的概率,而置信度揭示了在X發生時,C出現的概率。在軟件開發生命周期中,基于關聯規則的軟件缺陷預測有益于提高預測性能和理解缺陷狀況(如缺陷傾向、缺陷類型、工作量)與度量元的關聯性已引起了關注。
基于關聯規則的軟件缺陷預測主要由數據預處理、關聯規則模型訓練和模型評估組成。傳統的關聯規則算法Apriori及變異算法已證明具有較高的準確度(accuracy);由于軟件缺陷預測數據具有高維和類不平衡的特性,高維是指數據集具有較高的特征維度,類不平衡性是指某一類的樣本數(多數類)遠遠多于其它類的樣本數(少數類),關聯規則在模型訓練過程中容易產生大量的多數類(低風險/無缺陷傾向)規則,而少數類(高風險/有缺陷傾向)規則極易被忽略,導致多數類具有較高的準確度,少數類的預測性能卻較低。
以往的關聯規則算法大多數都是依賴于支持度和置信度閾值,如果支持度和置信度閾值設置過高,會導致少數類規則難以被挖掘,預測少數類的性能就會較低;如果支持度和置信度閾值設置過低,會產生過多的規則,最終導致過擬合現象。因此,改變傳統的關聯規則挖掘和分析,解決只依賴于支持度和置信度的框架模式是很有必要的。
另外,以往的經典類關聯規則算法(CBA、CMAR、GARC、ECBA等)將所有特征項看作具有同等重要的意義,并沒有考慮特征之間的不同重要性。比如,代碼行數與空白行數兩個特征,在實際的數據集中構建的質量模型發現它們分別對高風險模塊的影響程度不同。因此,度量元的重要性不能忽略,否則會影響發現的知識是否具有較大的價值。后來,考慮到不同個體的重要性,許多加權關聯規則挖掘被提出。
基于規則的軟件缺陷預測模型不同于其他非規則模型的特點是不僅考慮了單個屬性特征的重要度,而且也考慮了項集的重要性?;诩訖嗟年P聯分類規則將發現知識的中心轉向重要的項,而不是無差別地進行組合爆炸。具有較高影響的屬性特征給予較高權重,較低影響的屬性特征給予較低權重。因此,高權重的屬性特征在規則集中仍有較高的優先級,較低權重的屬性特征將會擁有較低的優先級,在剪枝階段中就會被剪枝。
領域經驗加權關聯規則算法通過主觀認知的先前經驗賦予特征權重,在面向特征較少的數據集時,領域經驗法具有較好的效果,但當面向高維軟件缺陷數據時,領域經驗法無法確保所有特征都能給出準確的權重,具有一定的主觀性,有可能使發現的規則趨向于已知的、價值小的規則模式,從而阻礙隱藏的知識被挖掘。因此,自動化加權關聯規則算法引起了廣泛關注,然而,這些算法存在對非平衡數據非常敏感、只適用稀疏型數據而不適用密集型數據等等問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911114620.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于水表止回閥門開度的測速方法
- 下一篇:金屬氧化物薄膜的制備方法





