[發明專利]一種面向多可疑代碼文件的缺陷定位方法有效
| 申請號: | 202011173113.3 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112328475B | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 鄒衛琴;張靜宣 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06N3/04;G06N3/08 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 劉莎 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 可疑 代碼 文件 缺陷 定位 方法 | ||
1.一種面向多可疑代碼文件的缺陷定位方法,其特征在于,具體步驟如下:
步驟1、初始可疑代碼文件列表生成
1.1、對給定的一個缺陷報告及其對應的軟件項目代碼,分別通過Learning-to-Rank、Blizzard和BugLocator三種基于信息檢索的缺陷定位算法得到三個可疑代碼文件推薦列表;
1.2、利用機器學習中的Ensemble集成方法將三個可疑代碼文件推薦列表進行整合,得到整合后的可疑代碼文件推薦列表;
1.3、將整合后的可疑代碼文件推薦列表中的前N個可疑代碼文件作為初始可疑代碼文件列表;
步驟2、真實可疑代碼文件子集獲取
基于缺陷報告質量特征、文本相似性特征和缺陷報告者經驗特征三種特征構建一個基于多源特征的機器學習預測模型,從初始可疑代碼文件列表中抽取真實可疑代碼文件子集;其中缺陷報告質量特征包括軟件行為、重現步驟和可讀性,基于wordnet擴展的文本相似性特征包括tf-idf、主題和詞嵌入語義向量相似性,缺陷報告者的經驗特征包括歷史代碼貢獻、缺陷修復經驗和缺陷報告經驗;
步驟3、可疑代碼文件列表優化
3.1、利用程序分析技術,對真實可疑代碼文件子集分別進行控制流依賴、數據流依賴和共現依賴分析,得到三個可疑代碼文件候選列表;
3.2、對三個可疑代碼文件候選列表進行線性加權組合,將組合后得到的列表追加在真實可疑代碼文件子集后面,形成最終的可疑代碼文件列表,該列表將作為最終的推薦列表輸出給開發人員幫助其進行缺陷定位。
2.如權利要求1所述的一種面向多可疑代碼文件的缺陷定位方法,其特征在于,步驟2中基于多源特征的機器學習預測模型是一個卷積神經網絡CNN,CNN的輸入層為每個可疑代碼文件的三維特征,隱藏層為5個全連接層,輸出層使用邏輯回歸函數,CNN的輸出是可疑代碼文件是否為真實的可疑代碼文件,通過歷史代碼文件集對CNN進行訓練,其中,歷史代碼文件集中包括真實可疑代碼文件以及真實無缺陷代碼文件。
3.如權利要求2所述的一種面向多可疑代碼文件的缺陷定位方法,其特征在于,對于初始可疑代碼文件列表中的每個可疑代碼文件,在獲取其對應的缺陷報告質量特征、文本相似性特征和報告者經驗特征后,輸入訓練完成的CNN,根據CNN的輸出結果從初始可疑代碼文件列表中抽取真實可疑代碼文件子集。
4.如權利要求2所述的一種面向多可疑代碼文件的缺陷定位方法,其特征在于,5個全連接層的節點數為512、256、128、64、32。
5.如權利要求1所述的一種面向多可疑代碼文件的缺陷定位方法,其特征在于,步驟3中線性加權組合的公式為:
S=∑wi*ranki
其中,wi為第i個可疑代碼文件候選列表的權重,ranki為第i個可疑代碼文件候選列表中任一個代碼文件與真實可疑代碼文件子集的依賴程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011173113.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電阻式液位檢測系統
- 下一篇:地下糧倉測溫裝置





