[發明專利]一種基于稀疏代價矩陣的軟件BUG分類方法在審
| 申請號: | 202010538383.3 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111723010A | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 李輝;楊溪;張天倫;李陽;陳榮;李博 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F16/906;G06N3/04;G06N3/08 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 稀疏 代價 矩陣 軟件 bug 分類 方法 | ||
本發明公開了一種基于稀疏代價矩陣的軟件BUG分類方法,包括以下步驟:S1:獲取軟件BUG報告;S2:對軟件BUG報告數據進行編碼操作,S3:初始化稀疏代價矩陣;S4:使用編碼后的數據訓練加權極限學習機、使其輸出正確的報告分類結果;S5:使用訓練好的加權極限學習機求出該加權極限學習機的局部泛化誤差;S6:使用差分進化算法中的交叉變異策略產生新的軟件BUG稀疏權重矩陣;S7:使用新的稀疏權重矩陣在相同不平衡數據集上訓練新的加權極限學習機、S8:直至無法得到更低的局部泛化誤差;S9:使用能夠得到最低的局部泛化誤差的加權極限學習機預測未知的軟件BUG報告、得到其相應的報告分類結果。
技術領域
本發明涉及軟件BUG分類、進化算法、機器學習以及局部泛化誤差,尤其涉及用于軟件BUG分類的一種基于稀疏代價矩陣的軟件BUG分類方法。
背景技術
盡管軟件BUG分類領域有許多的進步,但是當受到形式不平衡的復雜數據集的影響時,現有的工作將無法取得有利的表現。而不平衡數據問題在很多場景下非常常見。偏差的類別分布通常會導致分類學習無法獲得少數類樣本的特征。然而,包括大多數極限學習機工作在內的標準分類學習假定了兩個假設,即平等的錯誤分類成本和平衡的類別分布,在實踐中往往不成立。為了解決這個問題,已經針對不平衡數據提出了代價敏感和加權的極限學習機,在這些解決不平衡分類的極限學習機中,需要手動指定了不同分類錯誤的各種代價。值得注意的是,為不同的類樣本設置合理的代價值至關重要,但是,經驗法則并不適用于所有情況,在該領域中迫切需要一種估算這些代價的自適應方法。
發明內容
根據現有技術存在的問題,本發明公開了一種基于稀疏代價矩陣的軟件BUG分類方法,包括以下步驟:
S1:獲取軟件BUG報告,并對報告進行分類操作(如:嚴重、不嚴重),得到類別數C。
S2:對軟件BUG報告數據進行編碼操作,將每條軟件BUG報告處理為一個相同長度的向量,將軟件BUG報告的類別編碼為one-hot格式。
S3:初始化稀疏代價矩陣,矩陣規模與軟件BUG類別C有關。
S4:使用編碼后的數據訓練加權極限學習機,使其可以輸出正確的報告分類結果,加權極限學習機中使用的權值為S3中獲得的。
S5:使用S4中訓練好的加權極限學習機求出該加權極限學習機的局部泛化誤差。
S6:使用差分進化算法中的交叉變異策略產生新的軟件BUG稀疏權重矩陣。
S7:使用S6中產生的新的稀疏權重矩陣在相同不平衡數據集上訓練新的加權極限學習機,并計算加權極限學習機的局部泛化誤差。
S8:重復S6-S7操作,直至無法得到更低的局部泛化誤差。
S9:使用能夠得到最低的局部泛化誤差的加權極限學習機,預測未知的軟件BUG報告,得到其相應的報告分類結果。
進一步的,S1中具體采用如下方式:
S11:從Stack Overflow等軟件BUG報告網站,收集一定量的數據,主要保存其BUG描述,并將其分為C類(在這里C=2,表示嚴重與不嚴重)。
S2中具體采用如下方式:
S21:對軟件BUG報告進行編碼操作,即,將不同長度的軟件BUG報告使用相同的長度的編碼結果表示。在這里我們使用Sentence2vector方法得到編碼后的BUG報告,其形式為一個相同長度的向量。在這里我們假設編碼后的軟件BUG報告數據可以被表示為D={d1,d2,…,dN},其中di是一個長度確定的向量。
進一步的,S3中具體采用如下方式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010538383.3/2.html,轉載請聲明來源鉆瓜專利網。





