[發明專利]一種基于監督式表示學習的跨項目軟件缺陷預測方法有效
| 申請號: | 201910915935.5 | 申請日: | 2019-09-26 |
| 公開(公告)號: | CN110751186B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 鄭征;萬曉暉 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G06F11/34 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 李娜 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 表示 學習 項目 軟件 缺陷 預測 方法 | ||
1.一種基于監督式表示學習的跨項目軟件缺陷預測方法,其特征在于:該方法包括以下步驟:
步驟1)、明確待預測的目標項目和用來訓練模型的源項目,并對源項目和目標項目的原始數據進行標準化或歸一化預處理操作;
步驟2)、將源項目和目標項目中所有樣本的特征向量輸入給遷移自編碼器,并以無監督預訓練方式初步訓練遷移自編碼器,再由遷移自編碼器的特征編碼層得到源項目和目標項目所有樣本的初步隱層特征表示;
步驟3)、在步驟2)中得到初步特征表示的基礎上,借助遷移交叉驗證方法,從源項目樣本的隱層特征表示中選擇與目標項目樣本隱層特征表示分布最接近的部分樣本作為驗證集,剩下的源項目樣本作為訓練集;
步驟4)、對訓練集樣本進行過采樣處理;
步驟5)、在步驟4)過采樣處理后的訓練集上繼續監督式微調遷移自編碼器,并借助驗證集上的預測性能選擇模型超參數以及提早停止策略完成模型的訓練;
步驟6)、遷移自編碼器訓練完成后,再將目標項目經過預處理的樣本數據輸入給遷移自編碼器,并由其標簽編碼層得到最終的預測結果;
所述的遷移自編碼器是一種具有雙編碼層結構的自編碼器;所述的雙編碼層為特征編碼層和標簽編碼層;其中,第一層編碼層是特征編碼層,負責將源項目和目標項目中所有樣本的特征向量編碼為隱層特征表示,而標簽編碼層則是在隱層特征表示的基礎上實現對樣本的分類;
所述遷移自編碼器采用不同形式的損失函數;模型預訓練過程和微調過程通過調整損失函數,使其包含或不包含標簽損失項,分別實現無監督和有監督兩種訓練方式。
2.根據權利要求1所述的一種基于監督式表示學習的跨項目軟件缺陷預測方法,其特征在于:所述無監督訓練方式,訓練過程中沒有引入標簽信息,損失函數由重構誤差項和隱層特征分布差異項這兩部分組成;通過最小化該損失函數,網絡可以學到所有樣本的隱層特征表示。
3.根據權利要求1所述的一種基于監督式表示學習的跨項目軟件缺陷預測方法,其特征在于:所述有 監督式訓練方式,即訓練過程引入源項目樣本的標簽信息,此時的損失函數有4項內容組成,包括重構誤差項、隱層特征分布差異項、源項目樣本的標簽損失項以及正則損失項。
4.根據權利要求1所述的一種基于監督式表示學習的跨項目軟件缺陷預測方法,其特征在于:步驟3)中所述的遷移交叉驗證方法,依據特征分布差異性選擇與目標項目數據分布接近的部分訓練數據作為驗證集,并將其余數據作為訓練集;所采用的特征變換是通過遷移自編碼器得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910915935.5/1.html,轉載請聲明來源鉆瓜專利網。





