[發明專利]一種基于LDA主題模型的相關軟件歷史數據提取方法有效
| 申請號: | 201410029273.9 | 申請日: | 2014-01-22 |
| 公開(公告)號: | CN103729473B | 公開(公告)日: | 2016-11-09 |
| 發明(設計)人: | 孫小兵;李云;楊智松;劉湘月 | 申請(專利權)人: | 揚州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 董旭東 |
| 地址: | 225009 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lda 主題 模型 相關 軟件 歷史數據 提取 方法 | ||
1.一種基于LDA主題模型的相關軟件歷史數據提取方法,其特征在于,包括以下步驟:
步驟1:將軟件當前所需的維護請求進行預處理,所述預處理過程包括將請求語句進行分解,表示成用于相似度計算的一個由單詞組成的向量MR;
步驟2:從軟件演化歷史庫中選取故障跟蹤庫和通信庫進行分析;通過LDA主題模型對故障跟蹤庫和通信庫進行分析,提取潛在主題,故障跟蹤庫所提取的主題用矩陣B表示,通信庫所提取的主題用矩陣C表示,然后,分別計算矩陣B、矩陣C中和向量MR中相似的元素,識別出與向量MR中維護請求元素相對應的故障跟蹤庫中的故障元素Bug以及通信庫中的通信元素Comm;
步驟3:利用LDA主題模型從當前軟件版本中提取潛在主題,所提取的主題用向量Cu表示;
步驟4:利用LDA主題模型對軟件版本控制庫進行分析,提取潛在主題,所提取的主題用矩陣U表示;然后,計算矩陣U中和所述向量Cu相似的軟件版本元素V2;
步驟5:找出步驟2中計算得到故障元素Bug和通信元素Comm所對應的軟件版本元素V1,另外,找出步驟4中計算得到的軟件版本元素V2,最終,計算得出所有與當前維護請求和當前軟件版本相關的的軟件數據為V=V1∪V2;
根據權利要求1所述的一種基于LDA主題模型的相關軟件歷史數據提取方法,其特征在于,向量元素相似性計算采用余弦相似性模型進行計算。
2.根據權利要求1所述的一種基于LDA主題模型的相關軟件歷史數據提取方法,其特征在于,本發明中元素的數據粒度層次均是文件層次。
3.根據權利要求1所述的一種基于LDA主題模型的相關軟件歷史數據提取方法,在利用LDA模型進行主題提取時,將軟件演化歷史庫中的文件作為文本語料庫輸入,在利用LDA分析這些文件前,首先對所述文件進行過濾預處理,如提取標識符、注釋;將軟件中的一些關鍵詞和常用詞刪除;然后設置需要提取主題的個數,根據隱含狄利克雷分布對這些非結構化文本語料庫進行分析,提取不同軟件數據庫的主題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于揚州大學,未經揚州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410029273.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于識別論壇用戶馬甲賬號的方法和系統
- 下一篇:三維文件處理方法和裝置





