[發明專利]一種基于監督式表示學習的跨項目軟件缺陷預測方法有效
| 申請號: | 201910915935.5 | 申請日: | 2019-09-26 |
| 公開(公告)號: | CN110751186B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 鄭征;萬曉暉 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G06F11/34 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 李娜 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 表示 學習 項目 軟件 缺陷 預測 方法 | ||
本發明公開了一種監督式表示學習的跨項目軟件缺陷預測方法:(1)選擇缺陷數據集,對缺陷數據做預處理;(2)以無監督預訓練方式訓練遷移自編碼器,遷移自編碼器包括特征編碼層和標簽編碼層;(3)借助遷移交叉驗證方法,從源項目所有樣本隱層特征表示中選擇與目標項目樣本隱層特征分布最接近的樣本作為驗證集,其余作為訓練集;(4)對訓練集樣本進行過采樣處理;(5)微調遷移自編碼器,選擇模型超參數以及提早停止策略;(6)將經預處理后的目標項目的數據輸入給遷移自編碼器,由標簽編碼層的輸出得到最終的預測結果。本發明將源項目樣本的標簽信息引入到特征表示學習過程中,提高了跨項目軟件缺陷預測模型的預測性能。
技術領域
本發明屬于軟件工程應用的軟件缺陷預測技術領域,尤其涉及一種基于監督式表示學習的跨項目軟件缺陷預測方法。
背景技術
軟件缺陷預測技術通過從歷史缺陷數據中學習并構建預測模型,以此預測當前軟件項目中可能存在的缺陷。它可以幫助測試人員快速查找缺陷,極大提升軟件測試效率,因而成為當前軟件工程領域的一個研究熱點。
軟件缺陷預測的通常做法是,先從軟件代碼中提取各種特征,例如Halstead度量、McCabe度量、CK度量、MOOD度量、代碼變更度量以及其他面向對象度量,將所有代碼段以特征向量表示,并根據有無實際缺陷進行標記,然后將這些特征向量以及標注的標簽輸入給機器學習模型進行訓練,并最終構建出軟件缺陷預測模型,用來在新的軟件代碼中預測可能存在的缺陷。
過去的軟件缺陷預測方法大都基于傳統機器學習方法構建軟件缺陷預測模型。傳統機器學習方法要想取得優良的性能往往需要滿足:訓練樣本和測試樣本的數據分布相同或相似、正負樣例分布較均衡,并且用于訓練的標注樣本充足。但在實際應用中,由于人工標注的難度極大,能夠用于訓練模型的標注樣本十分稀少,再加上軟件缺陷本身的發生概率極低,標注樣本中大部分也是無缺陷樣本,有缺陷樣本只占到很小的一部分。因此,標注數據稀少、類別不平衡問題就成為軟件缺陷預測技術所要面臨的最大的兩個挑戰。
對于類別不平衡的研究,目前大部分的工作主要采用數據重采樣的方法進行處理,例如隨機過采樣或者人工合成少數類樣本過采樣方法等,而對于訓練數據稀缺的問題,目前的一種解決思路是利用不同項目的缺陷數據訓練預測模型,這就是跨項目缺陷預測技術。由于標注樣本稀少,僅僅利用單個項目中獲取到的標注數據去訓練機器學習模型是不夠的,跨項目缺陷預測技術的基本思路是利用其它項目中的缺陷數據(也稱為源項目或者源域)訓練預測模型,然后再將訓練得到的預測模型應用于待預測的軟件項目(也稱為目標項目或者目標域),這就在一定程度上緩解了訓練數據稀缺的問題。
然而,跨項目軟件缺陷預測的一個困難在于,訓練數據和測試數據往往并不能滿足分布相同或相近,這就與傳統機器學習模型的假設相違背,因此,傳統機器學習模型無法直接用于跨項目缺陷預測。近幾年,遷移學習方法逐漸開始應用于跨項目軟件缺陷預測任務。其中應用最廣的一種方法是遷移成分分析方法(Transfer Component Analysis,TCA),該方法屬于一種無監督表示學習方法,其特點是在學習表征的過程中無法利用源域樣本的標注信息。此外,這類方法通過分治法將無監督特征學習過程和分類器的訓練過程割裂開來,例如首先學習源項目和目標項目樣本的隱層表示,再在這個新的特征空間中重新訓練機器學習分類器。但是分治法本身存在一個問題:在分步解決子問題時,盡管可在子問題上得到最優解,但在子問題上的最優并不意味著就能得到全局問題的最優解。前期學習到的特征對于后期訓練分類器而言可能并不合適,這就可能導致最終的軟件缺陷預測模型的實際預測能力受到影響。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910915935.5/2.html,轉載請聲明來源鉆瓜專利網。





