[發明專利]基于搜索的代價敏感超圖學習的軟件缺陷預測方法及系統有效
| 申請號: | 201810178494.0 | 申請日: | 2018-03-05 |
| 公開(公告)號: | CN108334455B | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 高躍;王楠;趙曦濱 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36 |
| 代理公司: | 北京律譜知識產權代理事務所(普通合伙) 11457 | 代理人: | 黃云鐸 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 搜索 代價 敏感 超圖 學習 軟件 缺陷 預測 方法 系統 | ||
本發明提供了一種基于搜索的代價敏感超圖學習的軟件缺陷預測方法,所述方法包括:輸入原始的訓練和測試數據,獲得軟件模塊的特征及相應的軟件模塊標簽;對軟件數據進行特征提取,將數據特征轉換到新的特征空間;在新的特征空間中,基于測試數據選取與相應測試數據距離最近的訓練數據;利用選取的訓練數據和測試數據構建超圖結構,超圖的連接是根據軟件模塊在轉換軟件模塊特征空間的距離來測算,不斷優化錯分代價敏感的測試數據總代價,并且優化超圖結構;利用學習到的轉換向量可以用來計算測試模塊是否含有錯誤。
技術領域
本發明屬于軟件錯誤預測領域,具體涉及利用超圖學習,構建基于搜 索代價敏感方法進行軟件錯誤識別的軟件錯誤預測方法及系統。
背景技術
隨著網絡技術的快速發展,對于各種軟件系統的需求量急速增加,對 軟件功能的要求也不斷提升,由于軟件系統規模的日益增大及其邏輯復雜 性日益增強,軟件中潛在的缺陷必定會影響軟件的質量、延長開發周期和 增加開發成本。軟件錯誤預測技術目標在于發現軟件中的錯誤模塊,提高 軟件系統質量。在具體的軟件系統實現過程中,為了能夠對測試的工作結 果進行準確客觀的評估,權衡潛在缺陷風險和測試成本之間的關系,控制軟件開發質量和開發成本,及時、準確的對軟件中的缺陷進行預測顯得十 分重要。
目前,軟件錯誤預測面臨的主要問題為:
1)已標記軟件錯誤模塊數據過少,
2)軟件無錯模塊和軟件錯誤模塊數據量不平衡
3)軟件模塊特征與軟件模塊標簽之間度量關系不明確。
而目前現有的軟件錯誤預測方法有限,并且都無法解決上述問題。
發明內容
針對現有技術中存在的上述問題,本發明提出了一種新型的軟件錯誤 預測方法及系統。在本發明的方法和系統中引入錯分代價,由于將錯誤模 塊錯分成無錯模塊通常意味著更糟糕的后果,所以針對錯誤模塊以及無錯 模塊錯分產生的不同影響,賦予兩種錯分情況不同的錯分代價;針對訓練 數據不平衡的問題,本系統通過基于測試樣例進行訓練數據檢索,選擇有 利于進行分類的有錯和無錯模塊訓練數據集。基于選擇的訓練數據集,為了更加全面的挖掘數據之間的關系,利用超圖模型充分描述訓練數據與測 試數據之間關系,并通過半監督方式對軟件模塊進行分類,從而提高軟件 錯誤預測的準確性。
具體而言,本發明提供了一種基于搜索的代價敏感超圖學習的軟件缺 陷預測方法,其特征在于,所述方法包括下述步驟:
步驟S1、輸入原始的訓練和測試數據,包括軟件模塊的特征及相應的 軟件模塊標簽;
步驟S2、對軟件數據進行特征提取,將數據特征轉換到新的特征空間;
步驟S3、在新的特征空間中,基于測試數據選取與相應測試數據距離 較近的訓練數據,所述訓練數據中包括軟件錯誤模塊和無錯模塊;
步驟S4、利用選取的訓練數據和測試數據構建超圖結構,超圖的連接 是根據在轉換后的特征空間中不同軟件模塊的距離來測算的,不斷優化錯 分代價敏感的測試數據集的總代價,并且優化超圖結構,獲得轉換向量;
步驟S5、利用學習到的轉換向量可以用來計算測試模塊是否含有錯 誤。
在一種優選實現方式中,所述步驟S2包括通過CSLS方法對軟件數 據進行特征提取。
在另一種優選實現方式中,所述步驟S2包括通過下式進行特征提取:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810178494.0/2.html,轉載請聲明來源鉆瓜專利網。





