[發明專利]一種基于句法的跟蹤關系恢復方法有效
| 申請號: | 201410032139.4 | 申請日: | 2014-01-23 |
| 公開(公告)號: | CN103793373B | 公開(公告)日: | 2017-02-01 |
| 發明(設計)人: | 王金水;鄭建生;楊榮華;唐鄭熠;趙釗林;薛醒思;黃麗麗;詹先銀 | 申請(專利權)人: | 福建工程學院 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 福州市鼓樓區京華專利事務所(普通合伙)35212 | 代理人: | 宋連梅 |
| 地址: | 350108 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 句法 跟蹤 關系 恢復 方法 | ||
1.一種基于句法的跟蹤關系恢復方法,其特征在于:包括如下步驟:
第一步驟:句子切分:
首先將制品中所有的文本切分為句子塊,根據跟蹤關系的粒度對源代碼進行文檔化的預處理,將其分割為基本的文檔單位后再與其他文檔進行后續的分析操作;若關注的是制品與方法的跟蹤關系,則將源代碼分割為方法的組合,再將方法所擁有的注釋作為獨立句子附加到各個方法的結尾,并丟棄成員變量以及所有不屬于任何方法的注釋;若關注的是制品與類的跟蹤關系,則將源代碼分割為類的組合,并將類所擁有的注釋附加到各個類的結尾;
第二步驟:詞性標注:
得到切分后句子之后,通過詞性標注來識別出句子中各個標引詞的詞性,在詞性標注過程中,只為句子中的每個標引詞附加上詞性信息,而不會對句子本身作任何的修改;
第三步驟:塊分析:
對句子進行塊分析,利用句子的上下文來修正詞性標注過程中可能引入的錯誤;通過塊分析,將句子分割為互不交叉的若干個詞組;對標引詞自身的詞性與其所屬詞組塊的詞性進行交集運算,僅保留兩種詞性都為動詞或名詞的標引詞作為之后運算的輸入;
第四步驟:降噪:
首先從標引詞中去除常見的停用詞,對于來自源代碼的標引詞,還會去除源代碼所用編程語言的保留字,再對余下的標引詞進行切詞和詞干化;
第五步驟:聚類
得到制品中的標引詞集合之后,通過對標引詞進行語義聚類,并根據聚類結果將制品進行分組,與某個制品存在跟蹤關系的其它制品數量一般都在100以下;采用Carrot2,一個開源的查詢結果聚類引擎,所提供的Lingo算法來執行語義聚類;
第六步驟:聚類簇映射
當參與分析的制品類型只有兩種時,通過聚類結果便可為那些在同一聚類簇且屬于不同類型的制品建立跟蹤關系;當參與分析的制品類型多于兩種時,通過映射算法為在同一聚類簇且屬于不同類型的制品建立跟蹤關系。
2.如權利要求1所述的一種基于句法的跟蹤關系恢復方法,其特征在于:所述步驟六中的映射算法:先從所有制品A中隨機選出一種類型作為基準類型,將屬于該類型的所有制品視為基準制品Astd,其他制品歸為待分析制品Aung,對于Aung中的每個制品,算法通過語義聚類找出所有與它處于同一聚類簇的基準制品,并建立它與聚類簇中的基準制品之間的跟蹤關系。在此之后,可根據待分析制品與基準制品之間跟蹤關系的存在與否,建立不同待分析制品之間的跟蹤關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建工程學院,未經福建工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410032139.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種下載應用中圖片的方法和系統
- 下一篇:移動量算機





