[發(fā)明專利]一種軟件缺陷嚴(yán)重程度識別方法在審

申請?zhí)枺?/td>	201911425226.5	申請日：	2019-12-31
公開（公告）號：	CN111177010A	公開（公告）日：	2020-05-19
發(fā)明（設(shè)計(jì)）人：	俞東進(jìn);郭世明;陳信;王琳	申請（專利權(quán)）人：	杭州電子科技大學(xué)
主分類號：	G06F11/36	分類號：	G06F11/36;G06N3/12;G06N3/04
代理公司：	杭州君度專利代理事務(wù)所(特殊普通合伙) 33240	代理人：	楊舟濤
地址：	310018 浙***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種軟件缺陷嚴(yán)重程度識別方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種軟件缺陷嚴(yán)重程度識別方法，其特征在于包括以下步驟：

步驟(1)定義軟件缺陷的嚴(yán)重程度，將normal、trivial和minor級別歸為非嚴(yán)重缺陷s₁，將major、blocker和critical級別歸為嚴(yán)重缺陷s₂；

步驟(2)給定缺陷報告集合R＝(R₁，R₂，...R_n)，將其中每個軟件缺陷報告表示成R_i＝＜reportId，des，severity＞，i＝1，2...，n，其中reportId表示軟件缺陷報告編號，des表示軟件缺陷報告的描述信息，severity表示軟件缺陷報告的嚴(yán)重程度，即s₁或s₂；

步驟(3)對每個軟件缺陷的描述信息des進(jìn)行預(yù)處理：首先對des進(jìn)行標(biāo)記，用空格區(qū)分成單詞形式，并刪除其中的符號，然后基于停用詞列表移除其中的停用詞，最后將每個單詞轉(zhuǎn)為它的原型(即將每個單詞轉(zhuǎn)為它原有的詞干或詞根)；經(jīng)過預(yù)處理后每個缺陷報告R_i＝＜reportId，preDes，severity＞，其中preDes表示預(yù)處理后的描述信息；

步驟(4)首先抽取所有缺陷報告中的描述信息preDes中的不同單詞，形成關(guān)鍵詞字典Dict＝(w₁，w₂，...，w_k)，即特征集合，其中每一個關(guān)鍵詞就是一個特征；然后利用遺傳算法進(jìn)行特征選擇，特征選擇的步驟如下：

4-1.設(shè)定初始化種群X＝(X₁，X₂，...，X_p)，p表示種群大小，以及最大迭代次數(shù)MaxIter；種群中的每一個個體X_i可以用一個長度為k的二進(jìn)制串表示，其中1代表對應(yīng)的特征被選中，0表示對應(yīng)的特長度k即關(guān)鍵詞的個數(shù)；

4-2.對于每個個體X_i，根據(jù)關(guān)鍵詞字典Dict得到對應(yīng)的特征子集SD_i(基于個體X_i二進(jìn)制串過濾得到)，然后根據(jù)SD_i去除每個preDes的冗余特征，即只保留在SD_i中存在的特征，得到preDesR；

4-3.利用TF-IDF加權(quán)方法計(jì)算每個特征的權(quán)重，其中TF表示單詞頻率，IDF表示文檔反向頻率；TF-IDF公式為TF-IDF_l，j＝TF_l，j×IDF_j，其中TF-IDF_l，j表示第j個單詞在第l個文檔中的權(quán)重，TF_l，j表示第j個單詞在第l個文檔中的頻率，IDF_j＝log(n/DF_j)表示第j個單詞的文檔反向頻率，n表示文檔的個數(shù)，DF_j表示包含第j個單詞的文檔的個數(shù)；

4-4.對種群中的每一個個體X_i采用最小化平均絕對偏差作為適應(yīng)度函數(shù)進(jìn)行評估；適應(yīng)度函數(shù)定義如下：

其中，MAD(X_i)表示第i個個體X_i對應(yīng)的適應(yīng)度值，a_l是第l個軟件缺陷報告中被選中的特征的數(shù)量，e_l，j表示第l個軟件缺陷報告中第j個特征的權(quán)值，即TF-IDF_l，i；然后采用錦標(biāo)賽選擇算法對種群進(jìn)行選擇，被選擇的個體進(jìn)入子代種群；

4-5.對子代種群進(jìn)行交叉和變異，重復(fù)上述步驟4-2到4-4的操作，直到達(dá)到最大迭代次數(shù)MaxIter；

4-6.輸出最優(yōu)特征子集；

步驟(5)單詞向量化，基于最優(yōu)特征子集將每個缺陷報告的preDes中的冗余特征進(jìn)行過濾，得到preDesR；然后利用Word2Vec中的Skip-gram模型將每個preDesR中的每個單詞轉(zhuǎn)為一個d維向量，即

步驟(6)訓(xùn)練軟件缺陷報告嚴(yán)重程度預(yù)測的卷積神經(jīng)網(wǎng)絡(luò)模型M，將步驟(5)得到的每個單詞的向量表示輸入至模型M的Embedding層進(jìn)行訓(xùn)練，具體步驟如下：

第一，設(shè)置模型參數(shù)：Number of hidden units(隱藏單元數(shù))、IterMax(CNN訓(xùn)練最大迭代次數(shù))、Batch size(批量大小)、L2、Learning rate(學(xué)習(xí)率)、Dropout和Dimensionalof word vectors(單詞向量維度)；

第二，將R分為訓(xùn)練數(shù)據(jù)集合ζ_train與測試數(shù)據(jù)集合ζ_test；

第三，將訓(xùn)練數(shù)據(jù)集合ζ_train所有單詞的輸入至CNN中進(jìn)行訓(xùn)練；

第四，對于訓(xùn)練數(shù)據(jù)集合ζ_train中數(shù)據(jù)，利用三個不同卷積核執(zhí)行卷積操作，分別對每一個卷積結(jié)果進(jìn)行最大池化1-Max操作，輸出Θ₁，Θ₂，Θ₃；

第五，對Θ₁，Θ₂，Θ₃進(jìn)行Flatten操作，展平成一維向量，并輸入到全連接層中，其中激活函數(shù)使用Relu，輸出

第六，卷積神經(jīng)網(wǎng)絡(luò)通過損失函數(shù)Loss計(jì)算c與之間的損失值，即預(yù)測的嚴(yán)重程度與真實(shí)的嚴(yán)重程度的差值，不斷優(yōu)化模型參數(shù)，其中c是每次迭代對ζ_train中的部分?jǐn)?shù)據(jù)的預(yù)測結(jié)果；

第七，達(dá)到設(shè)定的損失函數(shù)要求值或達(dá)到最大迭代次數(shù)IterMax后，迭代結(jié)束；最后，輸出預(yù)測模型M；

步驟(7)將測試數(shù)據(jù)集合ζ_test數(shù)據(jù)輸入至預(yù)測模型M，輸出預(yù)測結(jié)果c’，得到類標(biāo)簽s₁或s₂；

步驟(8)進(jìn)行十折交叉驗(yàn)證，十次預(yù)測之后取平均值，作為最終預(yù)測結(jié)果

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué)，未經(jīng)杭州電子科技大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911425226.5/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯誤檢測；錯誤校正；監(jiān)控
G06F11-07 .響應(yīng)錯誤的產(chǎn)生，例如，容錯
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時間期間內(nèi)，通過測試作故障硬件的檢測或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯誤檢測、錯誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測試或調(diào)試防止錯誤

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】