[發明專利]一種缺陷報告與郵件列表語義關聯挖掘方法有效
| 申請號: | 201610984538.X | 申請日: | 2016-11-09 |
| 公開(公告)號: | CN106649557B | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 趙俊峰;陳秀招;曹英魁 | 申請(專利權)人: | 北京大學(天津濱海)新一代信息技術研究院 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F40/30;G06F16/951 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 300452 天津市濱*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 缺陷 報告 郵件 列表 語義 關聯 挖掘 方法 | ||
1.一種缺陷報告與郵件列表語言關聯挖掘方法,其步驟為:
1)對獲取的目標項目的缺陷報告與郵件列表進行解析,得到缺陷報告的堆棧信息、代碼片段、正文文本和郵件列表的堆棧信息、代碼片段、正文文本;
2)文檔顯式語義關聯挖掘單元根據解析結果識別缺陷報告和郵件列表之間的顯式語義關聯,包括引用關聯和共同代碼元素關聯;
3)文檔隱式語義關聯挖掘單元根據解析結果識別缺陷報告和郵件列表之間的隱式語義關聯,包括相似關聯和潛在語義關聯;
其中,挖掘所述隱式語義關聯的方法為:
31)根據郵件和缺陷報告中的堆棧信息,計算郵件和缺陷報告的相似度SIM1;
32)根據郵件和缺陷報告的正文文本,計算郵件和缺陷報告的相似度SIM2;
33)基于相似度SIM1和SIM2,得到郵件和缺陷報告的綜合相似度SIM;然后根據綜合相似度SIM確定存在相似關聯的郵件和缺陷報告;
34)獲取每一文檔的查詢向量;其中,第i個文檔的查詢向量為Vi=<Wi,1,Wi,2,...,Wi,k,...,Wi,n>,n為所有文檔出現詞匯總數,Wi,k指第k個詞匯在該文檔i中出現的次數;所述文檔包括郵件和缺陷報告;
35)按照文檔i對應的查詢向量,計算文檔i與其他所有文檔的余弦相似度,并按照降序進行排序;然后取排序結果前若干個文檔為與文檔i存在潛在語義關聯的文檔。
2.如權利要求1所述的方法,其特征在于,所述引用關聯包括缺陷報告引用的關聯和郵件引用的關聯。
3.如權利要求2所述的方法,其特征在于,獲取所述缺陷報告引用的關聯的方法為:對郵件列表的正文文本進行模式匹配,判斷是否包含對缺陷報告的引用鏈接或缺陷報告的關鍵名;若包含,則識別關鍵名或提取引用鏈接中的關鍵名信息;然后根據關鍵名定位相應的缺陷報告,并建立引用關聯。
4.如權利要求2所述的方法,其特征在于,獲取所述郵件引用的關聯的方法為:對缺陷報告的正文文本進行模式匹配,判斷是否包含對郵件的引用信息;若包含,則提取引用鏈接中的Message-ID信息;然后根據Message-ID定位相應的郵件,并建立引用關聯。
5.如權利要求1所述的方法,其特征在于,若一封郵件的正文文本中與一缺陷報告的正文文本中存在相同的代碼元素,即認為兩者存在所述共同代碼元素關聯。
6.如權利要求5所述的方法,其特征在于,根據代碼元素的來源挖掘所述共同代碼元素關聯;首先對代碼元素進行解析,其中,如果代碼元素來源為目標項目的代碼元素,且為長代碼元素,則:1)將該長代碼元素解析成AST;2)遍歷AST節點,讀取節點上的元素;3)對每個節點,提取其所在包名信息并連接,則得到長代碼元素集合;如果代碼元素來源為目標項目的代碼元素,且為短代碼元素,則1)采用將該短代碼元素解析成AST;2)遍歷AST節點,讀取節點上的元素,得到初始代碼元素集合;3)對該初始代碼元素集合中的元素去重,并過濾停用詞;如果代碼元素來源為其他項目的代碼元素,則采用命名規則的方法進行解析;然后根據上述解析結果,判定封郵件的正文文本中與缺陷報告的正文文本中是否存在共同代碼元素關聯。
7.如權利要求1所述的方法,其特征在于,利用公式計算查詢向量Vi=<Wi,1,Wi,2,...,Wi,n>和文檔j的查詢向量Vj=<Wj,1,Wj,2,...,Wj,n>的余弦相似度Similarituy(Vi,Vj)。
8.如權利要求1所述的方法,其特征在于,采用圖數據Neo4j表現挖掘出的缺陷報告與郵件列表之間的語義關聯。
9.如權利要求1所述的方法,其特征在于,對缺陷報告與郵件列表進行解析的方法為:
21)首先過濾掉缺陷報告與郵件列表中的冗余文本內容;
22)根據堆棧信息特征,從步驟21)處理后的缺陷報告與郵件列表中提取堆棧信息;
23)從步驟22)處理后的缺陷報告與郵件列表中提取代碼片段;然后將剩余文本為正文文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學(天津濱海)新一代信息技術研究院,未經北京大學(天津濱海)新一代信息技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610984538.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于分布式文件系統的多層重復數據刪除方法及裝置
- 下一篇:床(M307#)





