[發明專利]一種基于異質信息網絡的重復缺陷報告檢測方法有效
| 申請號: | 202010413134.1 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111737107B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 肖冠平;鄭征;杜曉婷 | 申請(專利權)人: | 南京航空航天大學;北京航空航天大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F40/194;G06K9/62;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 信息網絡 重復 缺陷 報告 檢測 方法 | ||
本發明公開了一種基于異質信息網絡的重復缺陷報告檢測方法,包括以下步驟:(1)缺陷報告異質信息網絡建立;(2)缺陷報告異質信息網絡表示學習;(3)缺陷報告文本語義表示學習;(4)缺陷報告組識別;(5)重復和非重復缺陷報告對生成;(6)訓練、驗證和測試數據生成;(7)重復缺陷報告檢測模型建立;(8)重復缺陷報告檢測模型訓練;(9)重復缺陷報告檢測。本發明通過建立缺陷報告異質信息網絡,利用網絡表示學習方法對網絡中缺陷報告之間隱含的語義關系進行學習,進而構建重復缺陷報告檢測模型,與單獨使用缺陷報告文本信息的信息檢索方法相比,本發明提高了重復缺陷報告的檢測準確率。
技術領域
本發明屬于軟件工程中重復缺陷報告自動檢測技術領域,具體涉及一種基于異質信息網絡的重復缺陷報告檢測方法。
背景技術
缺陷追蹤系統,例如Bugzilla和Jira,不可避免地會出現重復缺陷報告問題。不同用戶可能會報告相同失效現象的缺陷,導致開發者重復討論和識別這些相同的缺陷,帶來不必要的維護代價。為了檢測重復缺陷報告,傳統方法依賴基于信息檢索方法(information retrieval,IR)計算的文本相似度,例如術語頻率-逆文檔頻率(TF-IDF),來檢測重復缺陷報告。然而,隨著缺陷追蹤系統加入了實時檢測(just-in-time,JIT)功能,在面對加入JIT功能后的重復缺陷報告時,基于文本相似性的傳統方法的有效性發生了下降。這是因為缺陷追蹤系統在加入JIT功能后,當用戶/開發者在缺陷報告提交頁面標題框中輸入文字時,該技術能夠給出可能的重復缺陷報告。因此,在提交缺陷報告的第一步就減少了出現重復的可能性。
雖然JIT功能通過避免一些文本高度相似的缺陷報告,在一定程度上提高了缺陷報告的質量,但是缺陷追蹤系統中仍然存在大量的重復缺陷報告。這些重復缺陷報告更多地呈現出語義關系相似性,而不是文本相似性。因而基于文本相似性技術的傳統信息檢索方法難以檢測這些重復缺陷報告。另一方面,當前的JIT功能僅利用缺陷報告的標題文本來檢測重復缺陷報告,而不考慮缺陷報告中與所報告缺陷有關的豐富的異質屬性信息,例如產品、組件、版本、嚴重性和修復優先級。因此,即使加入了JIT功能,缺陷追蹤系統中仍然存在大量的重復缺陷報告。為了彌補傳統重復缺陷報告檢測方法的不足,本發明提出了一種基于異質信息網絡的重復缺陷報告檢測方法。
發明內容
發明目的:本發明提出一種基于異質信息網絡的重復缺陷報告檢測方法,可以充分利用缺陷報告中異質屬性之間不同的關系類型,提高重復缺陷報告的檢測準確率。
技術方案:本發明提出一種基于異質信息網絡的重復缺陷報告檢測方法,具體包括以下步驟:
(1)從缺陷報告文件中提取結構化的異質屬性當作節點,根據異質屬性節點之間的關系構建缺陷報告異質信息網絡;
(2)對建立的缺陷報告異質信息網絡進行網絡表示學習,得到每個屬性節點的向量表示;
(3)從缺陷報告文件中提取文本信息并進行預處理,然后使用大量的無標簽的缺陷報告文本信息訓練缺陷報告文本語義模型,得到缺陷報告文本中每個單詞的向量表示;
(4)從缺陷倉庫中識別缺陷報告組,同一個缺陷報告組中的缺陷報告描述相同的失效現象;
(5)從步驟(4)中識別的缺陷報告組中生成重復和非重復缺陷報告對數據;并將該數據劃分成訓練、驗證和測試數據;
(6)將步驟(2)、(3)中的得到的異質屬性節點向量和文本單詞向量分別用于表示缺陷報告的結構化特征和非結構化特征,用于構建重復缺陷報告檢測模型;
(7)使用步驟(5)中得到的訓練和驗證數據對步驟(6)建立的重復缺陷報告檢測模型進行訓練;
(8)使用步驟(7)中訓練得到的重復缺陷報告檢測模型對測試數據進行自動檢測,得到重復缺陷報告的檢測結果。
進一步地,所述步驟(1)包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學;北京航空航天大學,未經南京航空航天大學;北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010413134.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:作品排序方法、裝置和存儲介質
- 下一篇:作用于輸送帶上的電路板翻轉設備





