[發明專利]一種軟件bug報告分類系統及分類方法在審
| 申請號: | 201811076509.9 | 申請日: | 2018-09-14 |
| 公開(公告)號: | CN109213865A | 公開(公告)日: | 2019-01-15 |
| 發明(設計)人: | 郭世凱;陳榮;李輝;唐文君;魏苗苗 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 分類系統 軟件bug 數據集 約簡 測試 數據集處理 訓練分類器 模糊 不確定性 處理數據 獲取模塊 結果分類 平衡數據 實例選擇 使用數據 輸出模塊 輸入模塊 數據規模 隨機采樣 特征選擇 樣本維度 分類器 維度 算法 單詞 | ||
本發明公開了一種軟件bug報告分類系統及分類方法,所述系統包括訓練部分和測試部分,所述訓練部分包括:數據集獲取模塊、數據約簡模塊和不平衡數據集處理模塊;所述測試部分包括:bug報告輸入模塊和結果分類輸出模塊。所述分類方法的主要步驟包括:使用數據約簡算法來處理數據,用RSMOTE方法處理不平衡數據集,用獲得的平衡數據集訓練分類器,以及用Choquet模糊積分來集成多個已經訓練過的分類器對bug報告的結果進行分類。本發明通過特征選擇和實例選擇結合使用的辦法,減少了樣本維度和單詞維度上的數據規模,通過使用基于Choquet模糊積分的集成訓練方法,提高了對bug報告嚴重性的識別程度,同時避免了隨機采樣的不確定性。
技術領域
本發明涉及一種計算機軟件測試方法,尤其是一種軟件bug報告的分類系統及方法。
背景技術
在對軟件bug報告嚴重性自動識別分類技術的研究中,目前主要有兩個挑戰:一是噪音問題(數據的樣本維度和單詞維度都很高);二是數據不平衡問題。一些研究者試圖解決bug報告分類問題時,對于高維問題提出了六種基于過濾器的特征排序技術,以減少可用軟件評估標準的數量,比如有將特征選擇算法與實例選擇算法相結合以減少bug數據集的規模并提高數據的質量。而對于數據不平衡問題,現有技術有采用為每個類在訓練集和測試集中選擇相同數量bug 報告的方法。然而,從原始數據集手工選擇的錯誤報告可能是有遺漏的,這將導致訓練出的分類器的泛化能力較弱。針對訓練集問題的不均衡分布,也有在先技術提出了四種使用廣泛的不平衡學習策略(ILS)來解決來自四個不同開源項目的bug報告的不平衡分布。這個方法結合使用了常見的4種文本屬性降噪的方法(IG,CH,SU,RF)和樣本降噪的方法(ICF,LVQ,DROP,POP),來從雙重維度(屬性維度和樣本維度)降低bug報告的噪音。該方法首先使用4種文本屬性降噪方法來去除噪音屬性,然后根據約減之后的數據進行訓練分類,選擇出最好的屬性降噪方法;然后再使用4種樣本降噪的方法去除噪音樣本,選擇出最好的樣本去噪方法。最后組合最好的屬性去噪方法和樣本去噪方法來達到雙重去噪的效果。但是該方法并沒有考慮到數據樣本不平衡問題,導致分類性能低。
發明內容
針對在先技術存在的缺陷,本發明要解決的技術問題是提出了一種基于去除文本噪音和數據不平衡的軟件bug報告分類系統及方法,不僅解決去除文本噪音問題,并且進一步解決去除文本噪音之后的數據不平衡問題。
本發明的技術方案是這樣實現的:
一種軟件bug報告分類系統,包括訓練部分和測試部分,
所述訓練部分包括:
數據集獲取模塊,用于獲取數據集,并對獲取的數據集進行數據“清洗”,通過詞干化、去停用詞把無意義的單詞刪除;
數據約簡模塊,用于將特征選擇和實例選擇相結合的方式來處理初始數據集;
不平衡數據集處理模塊,用于通過用RSMOTE方法處理不平衡數據集;
所述測試部分包括:
bug報告輸入模塊,用于輸入要進行分類的bug報告;
結果分類輸出模塊,用于bug報告的結果分類和輸出,其中包括用Choquet 模糊積分集成的多個已訓練過的分類器。
一種上述軟件bug報告分類系統的分類方法,包括以下步驟:
S1,分類系統獲取要處理的初始bug數據集,并對該數據集進行數據“清洗”,使用詞干化,去停詞,把無意義的單詞刪除;
S2,使用數據約簡算法來處理數據,所述數據約簡過程采用特征選擇與實例選擇相結合的方式處理初始數據集,特征選擇旨在減少單詞維度,獲得相關單詞的子集,實例選擇旨在減少樣本維度,獲得相關bug報告的子集;
S3,獲得約簡后的數據集,通過約簡得到的高質量數據集作為初始數據集的代表性數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811076509.9/2.html,轉載請聲明來源鉆瓜專利網。





