[發明專利]一種軟件配置代碼制品的層次分類方法有效
申請號: | 201611121525.6 | 申請日: | 2016-12-08 |
公開(公告)號: | CN106775694B | 公開(公告)日: | 2019-10-25 |
發明(設計)人: | 陳偉;魏峻;竇文生;吳國全;高楚舒;徐培興 | 申請(專利權)人: | 中國科學院軟件研究所 |
主分類號: | G06F8/20 | 分類號: | G06F8/20 |
代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明;顧煒 |
地址: | 100190 *** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 軟件 配置 代碼 制品 層次 分類 方法 | ||
1.一種軟件配置代碼制品的層次分類方法,其特征在于包括以下步驟:
(1)構建軟件配置代碼制品的層次分類體系,從多個CMT代碼庫爬取CMT代碼制品標簽,經過標簽過濾和處理得到CMT代碼制品標簽集合作為CMT配置代碼制品的類別集合,然后通過挖掘CMT標簽集合之間的隸屬關系來構建層次分類Ctree;所述CMT表示配置管理工具;
(2)使用CMT軟件代碼庫中的部分CMT代碼制品為訓練數據集,爬取訓練數據集中每個CMT代碼制品的名稱和描述信息構成相應CMT代碼制品的描述文檔,采用TF-IDF(termfrequency&inversed document frequency,詞頻和逆向文件頻率)模型實現CMT代碼制品的文本特征向量抽取;對訓練數據集進行標注,將其中每個CMT代碼制品劃分到層次分類Ctree中對應的類別;最后基于二元分類器的自上而下(Top-down)分類方法,采用支持向量機算法SVM得到一組分類器,每個分類器實現對層次分類Ctree相應類別的CMT代碼制品的劃分;
(3)對于給定的待分類CMT制品m,采用逐步求精的方法,使用步驟(2)得到的分類器,對當前CMT代碼制品m進行自動化的層次分類,最終將m劃分到層次分類Ctree中某個類別。
2.根據權利要求1所述的一種軟件配置代碼制品的層次分類方法,其特征在:所述步驟(1)具體實現如下:
(11)Tinitial={t1,t2,...,tm}表示爬取獲得的CMT代碼制品初始標簽集合,對于任意標簽ti∈Tinitial,1≤i≤m,ti表示集合中的某個CMT代碼制品標簽,ti=<name,occur>,其中name表示標簽名稱,occur表示該標簽在所有爬取的CMT代碼制品樣本中出現的次數;
(12)對Tinitial中的標簽進行過濾,確保得到的為常用標簽,當ti.occur≥30,保留ti,否則從Tinitial中刪除ti,過濾后得到常用標簽集合Tfilter={t1,t2,...,tn}n≤m,即常用標簽集合包含的標簽數小于等于上一步驟中得到的CMT代碼制品標簽集合中的標簽數;遍歷Tfilter,對其中的標簽進行同義詞合并,假定tj,tk為Tfilter中的兩個標簽,即tj,tk∈Tfilter,且tj·name與tk.name為同義詞,將tj,tk合并為新的標簽tl,且tl.name=tj.name或tk.name,tl.occur=tj.occur+tk·occur,將tl加入常用標簽集合Tfilter,并從中刪除tj,tk,經過同義詞處理后得到CMT代碼制品標簽集合Tfinal={t1,t2,...,tq},q≤n,即CMT代碼制品標簽集合包含的標簽數量小于或等于常用標簽集合包含的標簽數量;
(13)根據Tfinal中標簽共同出現的情況推斷兩兩標簽之間是否存在隸屬關系,對于任意兩個標簽tA,tB∈Tfinal,如果tA是tB的子類,即tB包含tA,則必須滿足:(1)被tA標注的CMT代碼制品存在很大的概率被tB標注,并且,(2)tA·occur<tB·occur,即標簽tA出現的次數少于標簽tB;經過上述步驟(12)和(13)的標簽過濾和隸屬關系處理,得到所有CMT制品Tpair={<t1,t2>,...,<tx,ty>}(tx,ty∈Tfinal);
(14)遍歷標簽對集合Tpair,根據其中所有CMT制品之間的隸屬關系創建層次分類Ctree。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611121525.6/1.html,轉載請聲明來源鉆瓜專利網。