[發明專利]一種軟件配置代碼制品的層次分類方法有效
申請號: | 201611121525.6 | 申請日: | 2016-12-08 |
公開(公告)號: | CN106775694B | 公開(公告)日: | 2019-10-25 |
發明(設計)人: | 陳偉;魏峻;竇文生;吳國全;高楚舒;徐培興 | 申請(專利權)人: | 中國科學院軟件研究所 |
主分類號: | G06F8/20 | 分類號: | G06F8/20 |
代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明;顧煒 |
地址: | 100190 *** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 軟件 配置 代碼 制品 層次 分類 方法 | ||
本發明涉及一種軟件配置代碼制品的層次分類方法,通過分析軟件配置代碼制品標簽自動構建配置代碼的層次分類體系,然后基于監督學習方法實現一組分類器,并通過這些分類器自動完成數量眾多的配置腳本代碼制品的層次化分類。本發明能夠方便用戶查找和使用軟件配置代碼制品,提高制品分類的準確性,從而有效減少用戶瀏覽確認的時間和代價。
技術領域
本發明涉及一種軟件配置代碼制品的層次分類方法,尤其涉及一種面向多種軟件配置工具的大量可重用腳本代碼的層次化分類體系構造和基于該分類體系的配置代碼制品的層次化分類,屬于計算機軟件技術領域。
背景技術
配置管理工具(Configuration Management Tool,CMT)是實現開發運維一體化(Development and Operations,DevOps)的重要支撐工具,當前主流的CMT采用代碼即基礎設施(Infrastructure as Code,IaC)的方式,通過代碼來描述目標系統配置,實現自動化的系統安裝和配置,從而滿足DevOps所倡導的持續交付、快速部署和高效運維。基于此,使用CMT已成為運維管理領域的主流趨勢。軟件配置代碼制品(以下簡稱CMT制品)是CMT工具用以安裝、配置和管理特定的軟件系統的可復用執行腳本。在開源技術社區快速發展的背景下,CMT社區積累了大量的、并且持續快速增長的CMT制品,例如,Chef、Puppet、Ansible三個CMT社區已有4200多用戶,貢獻超過14000個CMT制品。
但是,大量的CMT制品給用戶如何正確選擇和使用帶來了困難。僅僅基于制品列表和關鍵字搜索用戶難以得到準確的結果,仍要花費大量時間對搜索結果進行瀏覽和細化。因此,軟件運維管理領域迫切需要一種CMT制品的自動化層次分類機制,以滿足用戶快速檢索和準確定位目標制品的需求。層次化分類將大規模數據按照特征逐級劃分,細化范圍,將層次分類應用于CMT制品,不僅能提高檢索效率和準確度,還能夠構建腳本制品間層次關聯關系,有助于腳本制品的維護管理,提高CMT制品的利用率。
當前面向CMT制品的分類仍然需要人工進行,缺乏高效的分類和檢索體系。同時,CMT制品的源代碼、API信息等受領域特定語言限制難以抽取有效信息。因此本發明通過整合多個CMT制品資源庫,分析CMT制品在線非結構化描述文檔,實現CMT制品的層次分類。
發明內容
本發明的技術解決問題:克服現有技術的不足,提供一種軟件配置代碼制品的層次分類方法。方法通過分析軟件配置代碼制品標簽自動構建配置代碼的層次分類體系,然后基于監督學習方法實現一組分類器,并通過這些分類器自動完成數量眾多的CMT制品的層次化分類,從而有助于用戶縮小對制品的搜索范圍,提高搜索結果的準確性。
本發明的技術方案如圖1所示:
一種軟件配置代碼制品的層次分類方法,包括了了以下幾個步驟:
(1)構建軟件配置代碼制品的層次分類體系,從多個CMT代碼庫爬取CMT代碼制品標簽,經過標簽過濾和處理得到CMT代碼制品標簽集合作為CMT配置代碼制品的類別集合,然后通過挖掘CMT標簽集合之間的隸屬關系來構建層次分類Ctree;所述CMT表示配置管理工具;
(2)使用CMT軟件代碼庫中的部分CMT代碼制品為訓練數據集,爬取訓練數據集中每個CMT代碼制品的名稱和描述信息構成相應CMT代碼制品的描述文檔,采用TF-IDF(termfrequency&inversed document frequency,詞頻和逆向文件頻率)模型實現CMT代碼制品的文本特征向量抽取;對訓練數據集進行標注,將其中每個CMT代碼制品劃分到層次分類Ctree中對應的類別;最后基于二元分類器的自上而下(Top-down)分類方法,采用支持向量機算法(SVM)得到一組分類器,每個分類器實現對層次分類Ctree相應類別的CMT代碼制品的劃分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611121525.6/2.html,轉載請聲明來源鉆瓜專利網。