[發明專利]一種軟件bug報告分類系統及分類方法在審
| 申請號: | 201811076509.9 | 申請日: | 2018-09-14 |
| 公開(公告)號: | CN109213865A | 公開(公告)日: | 2019-01-15 |
| 發明(設計)人: | 郭世凱;陳榮;李輝;唐文君;魏苗苗 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 分類系統 軟件bug 數據集 約簡 測試 數據集處理 訓練分類器 模糊 不確定性 處理數據 獲取模塊 結果分類 平衡數據 實例選擇 使用數據 輸出模塊 輸入模塊 數據規模 隨機采樣 特征選擇 樣本維度 分類器 維度 算法 單詞 | ||
1.一種軟件bug報告分類系統,其特征在于:包括訓練部分和測試部分,
所述訓練部分包括:
數據集獲取模塊,用于獲取數據集,并對獲取的數據集進行數據“清洗”,通過詞干化、去停用詞把無意義的單詞刪除;
數據約簡模塊,用于將特征選擇和實例選擇相結合的方式來處理初始數據集;
不平衡數據集處理模塊,用于通過用RSMOTE方法處理不平衡數據集;
所述測試部分包括:
bug報告輸入模塊,用于輸入要進行分類的bug報告;
結果分類輸出模塊,用于bug報告的結果分類和輸出,其中包括用Choquet模糊積分集成的多個已訓練過的分類器。
2.一種采用權利要求1所述軟件bug報告分類系統的分類方法,其特征在于,包括以下步驟:
S1,分類系統獲取要處理的初始bug數據集,并對該數據集進行數據“清洗”,使用詞干化,去停詞,把無意義的單詞刪除;
S2,使用數據約簡算法來處理數據,所述數據約簡過程采用特征選擇與實
例選擇相結合的方式處理初始數據集,特征選擇旨在減少單詞維度,獲得相
關單詞的子集,實例選擇旨在減少樣本維度,獲得相關bug報告的子集;
S3,獲得約簡后的數據集,通過約簡得到的高質量數據集作為初始數據集的代表性數據集;
S4,用RSMOTE方法處理不平衡數據集,得到平衡數據集;
S5,用獲得的平衡數據集訓練分類器;
S6,用Choquet模糊積分來集成多個已經訓練過的分類器對bug報告的結果進行分類;
S7,分類系統輸出分類后的結果。
3.根據權利要求2所述的分類方法,其特征在于,所述步驟S2中為了避免單個約簡算法可能會產生的偏差和偶然性,使用了四種常用的特征選擇算法:OneR,IG,CHI和RF;以及四個實例選擇算法:CNN,MCS,ENN和ICF。
4.根據權利要求2所述的分類方法,其特征在于,所述步驟S4中用RSMOTE方法處理不平衡數據集的具體步驟如下:
S4-1,初始化參數并計算約減之后的數據集的不平衡度;
S4-2,對于每個bug報告,使用歐氏距離去找到與其最相似的k個bug報告,并從這k個bug報告中隨機選擇bug報告;
S4-3,在高維空間仿真生成新的少數類bug報告;
S4-4,如果新的少數類bug報告不符合指定的約束,RSMOTE將重新生成少數類bug報告,直到新生成的少數類bug報告符合指定的約束,數據集達到平衡;
S4-5,得到平衡的數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811076509.9/1.html,轉載請聲明來源鉆瓜專利網。





