[發(fā)明專利]一種采用加權優(yōu)化訓練集增強自動Bug報告分配的方法在審
| 申請?zhí)枺?/td> | 201811033587.0 | 申請日: | 2018-09-05 |
| 公開(公告)號: | CN109255029A | 公開(公告)日: | 2019-01-22 |
| 發(fā)明(設計)人: | 魏苗苗;陳榮;李輝;郭世凱;唐文君 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 優(yōu)化訓練 加權 分配 特征選擇算法 工作效率 加權處理 人力成本 時間成本 實例選擇 頻度 數(shù)據(jù)集 訓練集 冗余 準確率 算法 單詞 噪音 分類 | ||
本發(fā)明公開了一種采用加權優(yōu)化訓練集增強自動Bug報告分配的方法,該方法通過對bug報告數(shù)據(jù)集進行加權處理,提高短描述中的信息頻度,并結合特征選擇算法與實例選擇算法,同時減少噪音單詞和冗余實例,得到規(guī)模更小且質(zhì)量更高的訓練集,提高了bug分類的準確率,節(jié)省了bug分配所需的時間成本和人力成本,提升了工作效率。
技術領域
本發(fā)明涉及數(shù)據(jù)處理分類技術領域,尤其涉及一種采用加權優(yōu)化訓練集增強自動Bug報告分配的方法。
背景技術
目前,一些研究者試圖解決bug報告分類問題。G.C.Murphy等在文件[1]首先提出將bug指派問題轉成文本分類問題來解決,即將文本分類技術應用到bug倉庫中。Anvik在文件[2]等人將bug分配問題半自動化,先利用文本分類技術訓練預測出多個開發(fā)者,然后將這些開發(fā)者當作候選供專家來選擇。Jeong等人在文件[3]提出了tossing圖的概念,通過對分類結果進行tossing圖過濾來提高分類準確率。Xuan等人在文件[4]使用半監(jiān)督分類方法,用一部分已有標簽的bug實例來幫助標記標簽未知的實例,隨后將所有的實例用來訓練預測。Zou等人在文件[5]首先將數(shù)據(jù)約簡技術應用到分類的訓練集中。上述基于bug分配的研究與改進大都忽略了數(shù)據(jù)集本身的問題?,F(xiàn)有工作主要集中在對bug報告的原始數(shù)據(jù)和文本進行分析方面,而文本的自然語言中包含的噪聲信息在很大程度上被忽略了。如果bug報告的自然語言描述中含有很多噪音,則無論對分類算法如何進行優(yōu)化,分類效果也不會特別好。
發(fā)明內(nèi)容
根據(jù)現(xiàn)有技術存在的問題,本發(fā)明公開了一種采用加權優(yōu)化訓練集增強自動Bug報告分配的方法,具體采用如下步驟:
S1:從Bug倉庫中獲取原始訓練集數(shù)據(jù),對原始訓練集進行預處理:從原始訓練集中過濾掉低效開發(fā)者處理的bug報告,對篩選出的數(shù)據(jù)集中的bug報告分別提取短描述及第一個長描述作為該bug報告的描述信息,對每個bug報告的描述信息進行分詞去停用詞處理,再將bug報告的短描述和長描述分別處理成文本矩陣SBR和文本矩陣LBR;
S2:對預處理后的Bug報告進行加權處理:即對短描述生成的文本矩陣SBR乘以一個權重值η再與長描述生成的文本矩陣LBR相加,將加權處理后的文本矩陣作為訓練集文本矩陣WBR;
S3:對訓練集文本矩陣WBR進行約簡處理:首先用4種特征選擇算法和4種實例選擇算法分別對訓練集文本矩陣WBR進行維度和行數(shù)的約簡,從特征選擇和實例選擇算法中分別挑選最佳約簡算法,將兩個最佳約簡算法進行組合對訓練集文本矩陣WBR進行約簡獲得最終訓練集文本;
S4:對最終訓練集文本采用樸素貝葉斯算法進行學習訓練獲得分類模型;
S5:將新bug報告輸入分類模型內(nèi)進行分類處理輸出該bug報告的指派開發(fā)者。
進一步的,所述S2中對預處理后的Bug報告進行加權處理采用如下算法:
上式中η表示對短描述生成的文本矩陣的權重值,m表示訓練集中的bug報告數(shù)目,n表示訓練集中不同單詞的數(shù)目。
由于采用了上述技術方案,本發(fā)明提供的一種采用加權優(yōu)化訓練集增強自動Bug報告分配的方法,通過對bug報告數(shù)據(jù)集進行加權處理,提高短描述中的信息頻度,并結合特征選擇算法與實例選擇算法,同時減少噪音單詞和冗余實例,得到規(guī)模更小且質(zhì)量更高的訓練集,提高了bug分類的準確率,節(jié)省了bug分配所需的時間成本和人力成本,提升了工作效率。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經(jīng)大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811033587.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種神經(jīng)網(wǎng)絡模型的訓練集優(yōu)化方法及系統(tǒng)
- 用于優(yōu)化神經(jīng)網(wǎng)絡架構搜索的方法和裝置
- 深度學習框架設計方法
- 一種工藝優(yōu)化方法、裝置、設備及計算機可讀存儲介質(zhì)
- 一種模型訓練方法、裝置、設備及存儲介質(zhì)
- 模型優(yōu)化方法和裝置、電子設備及存儲介質(zhì)
- 依存句法模型優(yōu)化方法、裝置、設備及可讀存儲介質(zhì)
- 溶解氧預測方法及裝置
- 一種基于姿態(tài)質(zhì)量評估的自適應人體姿態(tài)優(yōu)化方法
- 訓練樣本數(shù)據(jù)的優(yōu)化方法、系統(tǒng)、存儲介質(zhì)及電子設備





