[發(fā)明專利]一種基于混合式主動學習策略的軟件缺陷預(yù)測方法有效
| 申請?zhí)枺?/td> | 201811319619.3 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109656808B | 公開(公告)日: | 2022-03-11 |
| 發(fā)明(設(shè)計)人: | 曲豫賓;李芳 | 申請(專利權(quán))人: | 江蘇工程職業(yè)技術(shù)學院 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62 |
| 代理公司: | 北京一格知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11316 | 代理人: | 滑春生 |
| 地址: | 226000 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合式 主動 學習 策略 軟件 缺陷 預(yù)測 方法 | ||
本發(fā)明公開了一種基于混合式主動學習策略的軟件缺陷預(yù)測方法,采用基于代價敏感的信息熵與相對熵協(xié)同主動學習方法,該方法使用常見的信息熵作為優(yōu)質(zhì)樣例的評價指標,對于信息熵較高的樣例手工標注,同時使用相對熵來進一步分析低信息熵的樣例,更加有效的擴充標注數(shù)據(jù)集。通過實驗表明,本發(fā)明可以提高軟件缺陷預(yù)測性能,減少人工標注成本,更加高效。
技術(shù)領(lǐng)域
本發(fā)明涉及主動學習技術(shù)領(lǐng)域,特別是涉及一種基于混合式主動 學習策略的軟件缺陷預(yù)測方法。
背景技術(shù)
軟件缺陷模塊會造成企業(yè)生產(chǎn)過程中的操作失敗,導(dǎo)致企業(yè)出現(xiàn) 重大損失,降低客戶的滿意度。軟件缺陷預(yù)測模型用于在軟件開發(fā)階 段盡早發(fā)現(xiàn)軟件缺陷模塊,常見模型包括有監(jiān)督的模型以及無監(jiān)督的 模型等等。
如果軟件項目具有豐富的歷史標注數(shù)據(jù),那么就可以通過建立有 監(jiān)督的機器學習模型,來構(gòu)建同項目軟件缺陷預(yù)測(within-project defect prediction)模型,評估軟件模塊缺陷的概率或者計算某個模塊的 缺陷個數(shù)等等。在實際軟件開發(fā)過程中,如果軟件項目為全新的項目, 或者這個項目的訓(xùn)練數(shù)據(jù)比較少,那么需要企業(yè)對于缺陷模塊標記工作投入大量時間,同時該工作是專業(yè)性相對較強的工作,對于軟件模 塊標注需要較為專業(yè)的人員來進行,因此軟件缺陷預(yù)測模型的建立需 要花費大量的時間,投入較多的人力,提升了軟件開發(fā)的成本。
主動學習為解決樣例標注問題提供多種查詢策略,使得企業(yè)可以 在面對海量標注模塊時候主動選擇某個樣例進行標注,將待標注樣例 人工標注完成以后加入到標注樣例數(shù)據(jù)集中,快速建立軟件缺陷預(yù)測 模型。主動學習的選擇策略被用于從軟件缺陷預(yù)測數(shù)據(jù)集中選擇優(yōu)質(zhì) 樣例,樣例由人工標注以后擴展訓(xùn)練數(shù)據(jù)集,同時聯(lián)合使用維度縮減, 特征選擇等其他機器學習方法提升軟件缺陷預(yù)測的性能。
使用的選擇策略包括不確定度信息熵等常見策略,然而這些研究 中并未關(guān)注低信息熵的樣例,即確定度較高的樣例,在主動學習一次 查詢過程中往往低信息熵的樣例被拋棄,對于低信息熵樣例的利用很 少涉及。
專利號CN201710271035.2公開了一種基于條件依賴標簽集的多 標簽主動學習方法,通過同時對樣本信息熵和相對熵整合,篩選信息 量大的樣本作為主動學習的對象,該方法盡管使用了信息熵與相對熵 共同工作的原理,但在信息熵處理階段同時加入相對熵計算,反而會 對系統(tǒng)的運行效率及效果產(chǎn)生不利影響,另外低信息熵樣例也沒有被 很好的利用。
發(fā)明內(nèi)容
為解決人工標注成本高,預(yù)測性能低的問題,本發(fā)明提供了一種 基于混合式主動學習策略的軟件缺陷預(yù)測方法。
一種基于混合式主動學習策略的軟件缺陷預(yù)測方法,其特征在 于,所述基于混合式主動學習策略的軟件缺陷預(yù)測方法采用基于代價 敏感的信息熵與相對熵協(xié)同主動學習方法,簡稱為 UNCERTAINTYKL模型,所述UNCERTAINTYKL模型使用信息熵 作為優(yōu)質(zhì)樣例的評價指標,從未標記樣例數(shù)據(jù)中選取信息熵較高的樣 例手工標注,同時使用相對熵來進一步分析低信息熵的樣例,進一步 擴充已標記數(shù)據(jù)集。
優(yōu)選的,所述UNCERTAINTYKL模型包括以下步驟:
步驟1:通過信息熵計算公式計算每個未標記樣例數(shù)據(jù)的信息熵; 步驟2:通過計算公式(1)從未標記樣例數(shù)據(jù)中選擇信息熵最高的 數(shù)據(jù)樣例交由領(lǐng)域?qū)<疫M行人工標注,標注完成后加入已標記數(shù)據(jù) 集;
步驟3:篩選步驟2中剩余信息熵最低的未標記樣例數(shù)據(jù),利用相對 熵計算方式進行標注;
步驟4:預(yù)先設(shè)置一個相對熵閾值,若相對熵低于閾值,則加入該樣 例到已標記數(shù)據(jù)集,同時用預(yù)測結(jié)果的標記作為該數(shù)據(jù)的偽標記;若 相對熵高于閾值,則放棄對該樣例的處理。
優(yōu)選的,步驟2中所述信息熵最高的數(shù)據(jù)樣例的計算方式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇工程職業(yè)技術(shù)學院,未經(jīng)江蘇工程職業(yè)技術(shù)學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811319619.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





