[發(fā)明專利]一種基于混合式主動學(xué)習(xí)策略的軟件缺陷預(yù)測方法有效
| 申請?zhí)枺?/td> | 201811319619.3 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109656808B | 公開(公告)日: | 2022-03-11 |
| 發(fā)明(設(shè)計)人: | 曲豫賓;李芳 | 申請(專利權(quán))人: | 江蘇工程職業(yè)技術(shù)學(xué)院 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62 |
| 代理公司: | 北京一格知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11316 | 代理人: | 滑春生 |
| 地址: | 226000 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合式 主動 學(xué)習(xí) 策略 軟件 缺陷 預(yù)測 方法 | ||
1.一種基于混合式主動學(xué)習(xí)策略的軟件缺陷預(yù)測方法,其特征在于,所述基于混合式主動學(xué)習(xí)策略的軟件缺陷預(yù)測方法采用基于代價敏感的信息熵與相對熵協(xié)同主動學(xué)習(xí)方法,簡稱為UNCERTAINTYKL模型,所述UNCERTAINTYKL模型使用信息熵作為優(yōu)質(zhì)樣例的評價指標(biāo),從未標(biāo)記樣例數(shù)據(jù)中選取信息熵較高的樣例手工標(biāo)注,同時使用相對熵來進一步分析低信息熵的樣例,進一步擴充已標(biāo)記數(shù)據(jù)集;
所述UNCERTAINTYKL模型包括以下步驟:
步驟1:通過信息熵計算公式計算每個未標(biāo)記樣例數(shù)據(jù)的信息熵;
步驟2:從未標(biāo)記樣例數(shù)據(jù)中選擇信息熵最高的數(shù)據(jù)樣例交由領(lǐng)域?qū)<疫M行人工標(biāo)注,標(biāo)注完成后加入已標(biāo)記數(shù)據(jù)集;
步驟3:篩選步驟2中剩余信息熵最低的未標(biāo)記樣例數(shù)據(jù),利用相對熵計算方式進行標(biāo)注;
步驟4:預(yù)先設(shè)置一個相對熵閾值,若相對熵低于閾值,則加入該樣例到已標(biāo)記數(shù)據(jù)集,同時用預(yù)測結(jié)果的標(biāo)記作為該數(shù)據(jù)的偽標(biāo)記;若相對熵高于閾值,則放棄對該樣例的處理;
為解決所述UNCERTAINTYKL模型求解問題,采用以下分段式優(yōu)化策略,優(yōu)化過程如下:
A.系統(tǒng)初始化:系統(tǒng)開始運行之前,從樣例集合池中取出一部分樣例交由領(lǐng)域?qū)<疫M行手工標(biāo)注,記為標(biāo)記數(shù)據(jù)集Dl,初始標(biāo)記結(jié)合的采樣方式是隨機的從樣例集合中取樣,由標(biāo)記數(shù)據(jù)集Dl完成對分類模型θ1的初次訓(xùn)練,作為后續(xù)對無標(biāo)記數(shù)據(jù)分類的基礎(chǔ);
B.未標(biāo)記樣例主動選擇:使用分類模型θ1對每一個未標(biāo)記樣例進行預(yù)測,依據(jù)公式計算每個樣例的信息熵,排序取出信息熵最大的樣例xu,max交由領(lǐng)域?qū)<疫M行手工標(biāo)注,并將xu,max加入標(biāo)記數(shù)據(jù)集Dl;
C.確定度最高樣例的偽標(biāo)記處理:將信息熵最低的樣例xu,min取出,依據(jù)公式計算相對熵,即KLD,將KLD與閾值進行比較,如果滿足閾值,則對xu,min標(biāo)注,并將xu,min加入標(biāo)記數(shù)據(jù)集Dl;
D.分類模型更新:使用標(biāo)記數(shù)據(jù)集Dl再次訓(xùn)練分類模型θ1,然后循環(huán)直到滿足終止條件為止。
2.根據(jù)權(quán)利要求1所述的一種基于混合式主動學(xué)習(xí)策略的軟件缺陷預(yù)測方法,其特征在于,步驟2中所述信息熵最高的數(shù)據(jù)樣例的計算方式如下:
xu,max=arg max(-∑iPθ(yi/x)log Pθ(yi/x)) (1)
其中i表示第i個未標(biāo)注樣例(i=1,2,...u),yi表示待分類標(biāo)簽所屬的標(biāo)簽值,xu,max表示根據(jù)公式(1)得到的未標(biāo)記數(shù)據(jù)集中信息熵最大的數(shù)據(jù)樣例,屬于類別yi的預(yù)測概率值,pθ(yi/x)表示基于已標(biāo)記數(shù)據(jù)集數(shù)據(jù)分布情況下的概率。
3.根據(jù)權(quán)利要求1所述的一種基于混合式主動學(xué)習(xí)策略的軟件缺陷預(yù)測方法,其特征在于,步驟3所述相對熵計算方式包括如下公式:
表示根據(jù)所有分類模型KLD計算得到的相對熵的均值,xu,min表示根據(jù)公式(1)得到的未標(biāo)記數(shù)據(jù)集中信息熵最小的數(shù)據(jù)樣例,C表示查詢委員會的分類器數(shù)目,分類器的數(shù)據(jù)集為動態(tài)更新的Dl,分類委員會C={θ1,...,θm},分類委員會的分類器成員代表不同的分類策略,都能夠?qū)ξ礃?biāo)記數(shù)據(jù)計算當(dāng)前標(biāo)記,PC(yi/x)用于表示查詢委員會分類模型對于待分類標(biāo)記所屬的標(biāo)簽yi的概率的平均值,D(Pθ(C)/PC)表示分類模型θi對其他模型的相對信息熵。
4.根據(jù)權(quán)利要求3所述的一種基于混合式主動學(xué)習(xí)策略的軟件缺陷預(yù)測方法,其特征在于,步驟4中所述閾值設(shè)置為經(jīng)驗閾值0.1,若所述值滿足閾值范圍,則使用θi對xu,min中的樣例進行偽標(biāo)記。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇工程職業(yè)技術(shù)學(xué)院,未經(jīng)江蘇工程職業(yè)技術(shù)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811319619.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





