[發明專利]一種文本代碼相結合的缺陷原因自動分類方法有效
| 申請號: | 201811346186.0 | 申請日: | 2018-11-13 |
| 公開(公告)號: | CN109492106B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 周澄;李斌;孫小兵;陳定山 | 申請(專利權)人: | 揚州大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 馬魯晉 |
| 地址: | 226009 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 代碼 相結合 缺陷 原因 自動 分類 方法 | ||
1.一種文本代碼相結合的缺陷原因自動分類方法,其特征在于,包括以下步驟:
步驟1、提取缺陷報告中的文本內容以及附錄中的patch文件,之后進行數據清洗形成缺陷數據集;
步驟2、從所述缺陷數據集中選取狀態為VERIFIED FIXED且附有patch文件的缺陷,構建待分類缺陷集;
步驟3、抽取待分類缺陷集中缺陷的文本內容,并對其進行自然語言處理,之后根據缺陷原因分類標準對待分類缺陷集進行類別標注,構建缺陷原因分類集;
步驟4、自定義缺陷修改結構類別,并從所述patch文件中抽取缺陷修復前、后的diff代碼,之后獲取缺陷修復過程中修改的diff代碼對應的缺陷修改結構類別;所述獲取缺陷修復過程中修改的diff代碼對應的缺陷修改結構類別,具體為:
步驟4-1、將缺陷修復前、后的diff代碼分別轉換為抽象語法樹AST;
步驟4-2、通過對比兩個抽象語法樹AST識別出發生變化的節點;
步驟4-3、根據所述發生變化的節點獲取修改的diff代碼對應的缺陷修改結構類別;
步驟5、利用深度學習方法對缺陷原因分類集進行訓練,獲取缺陷原因自動分類器,新缺陷輸入缺陷原因自動分類器即可完成缺陷原因的自動分類;所述利用深度學習方法對缺陷原因分類集進行訓練,獲取缺陷原因自動分類器,具體為:
步驟5-1、將缺陷原因分類集劃分為訓練集和測試集;
步驟5-2、利用深度學習模型對所述訓練集進行訓練;
步驟5-3、將步驟4獲取的缺陷修復過程中修改的diff代碼對應的缺陷修改結構類別作為特征,利用word2vec對缺陷原因分類集進行訓練,獲得詞向量模型,并將詞向量模型作為深度學習模型的embedding輸入;
步驟5-4、對所述測試集進行交叉驗證得缺陷原因自動分類器。
2.根據權利要求1所述的文本代碼相結合的缺陷原因自動分類方法,其特征在于,步驟1所述文本內容包括標題、描述和評論。
3.根據權利要求1所述的文本代碼相結合的缺陷原因自動分類方法,其特征在于,步驟3所述自然語言處理包括去停用詞、去符號、統計詞頻、分句、分詞、統計缺陷文本長度。
4.根據權利要求1所述的文本代碼相結合的缺陷原因自動分類方法,其特征在于,步驟3所述缺陷原因分類標準包括12種,分別為Compatibility、Environment、Norm、Configuration、Performance、User interface、Function、Interface、Logic、Computation、Assignment、Documentation。
5.根據權利要求1所述的文本代碼相結合的缺陷原因自動分類方法,其特征在于,步驟4所述自定義缺陷修改結構類別具體包括5種缺陷修改結構類別,如下表1所示:
表1缺陷修改結構類別定義表
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于揚州大學,未經揚州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811346186.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于多特征集成學習的文本情感分類方法
- 下一篇:一種導診的方法及裝置





