[發明專利]用于歸一化文件的非數值特征的方法和裝置有效
| 申請號: | 201410708694.4 | 申請日: | 2014-11-28 |
| 公開(公告)號: | CN105701118B | 公開(公告)日: | 2019-05-28 |
| 發明(設計)人: | 孟繁晶;楊林;李長升;徐景民;E·H·斯特恩;卓雪君;王晗 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 張亞非;于靜 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 歸一化 文件 數值 特征 方法 裝置 | ||
本發明公開了一種用于歸一化文件的非數值特征的方法和相應裝置,該方法包括:將給定文件的非數值特征的至少一對正例切分為若干單詞;通過將所述至少一對正例中的單詞進行比較獲得匹配的單詞;以及針對所述匹配的單詞,計算其匹配該給定文件的權重,并將所述單詞及其權重存儲在單詞庫中。
技術領域
本發明涉及計算機領域,具體涉及一種用于歸一化文件的非數值特征的方法和裝置。
背景技術
大多數現代軟件使用配置文件向用戶提供靈活性,使用戶能基于其特定使用場景定制配置項。例如,用戶可以在配置文件httpd.conf中定制配置項MaxClients(最大客戶數)的值,來調整同時連接到Apache HTTP服務器的客戶的最大數量。
一些日常的IT操作,例如應用或數據備份和恢復、工作負荷遷移、文件災難恢復等,正變得更復雜和有挑戰性,因為它們高度依賴于分布式環境中配置文件的識別。因此,存在著巨大的需求,來從現有環境中識別這些配置文件以完成這些常見的IT操作。
由于配置文件的變化性、存儲位置分散性以及巨大數量,識別配置文件是非常有挑戰性、勞動密集和易錯的。目前用于配置文件發現的解決方案高度依賴于廣泛的專家知識或高強度的人類交互。
一種可設想的自動識別配置文件的方法是使用分類器(classifier)。分類器是一種算法或相應裝置,其可在使用訓練數據進行學習之后,根據某一對象的特征值的組合確定該對象是否屬于特定類。因此,可設想由分類器根據一文件的路徑、訪問權限、大小等元數據判斷該文件是否屬于配置文件。然而,由于分類器只能接收數值特征作為輸入,而不能接收非數值特征,因此,諸如文件路徑等配置文件的非數值特征并不能由分類器用來進行配置文件的識別。
可見,本領域中需要一種能夠將配置文件等文件的非數值特征歸一化為數值特征以便進行配置文件識別的解決方案。
發明內容
在本發明的一個方面,提供了一種用于歸一化文件的非數值特征的方法,包括:將給定文件的非數值特征的至少一對正例(positive instance)切分為若干單詞(token);通過將所述至少一對正例中的單詞進行比較獲得匹配的單詞;以及針對所述匹配的單詞,計算其匹配該給定文件的權重,并將所述單詞及其權重存儲在單詞庫中。
在本發明的另一個方面,提供了一種用于歸一化文件的非數值特征的裝置,包括:單詞切分模塊,被配置為將給定文件的非數值特征的至少一對正例切分為若干單詞;單詞匹配模塊,被配置為通過將所述至少一對正例中的單詞進行比較獲得匹配的單詞;以及單詞庫構建模塊,被配置為針對所述匹配的單詞,計算其匹配該給定文件的權重,并將所述單詞及其權重存儲在單詞庫中。
本發明的技術方案能夠將諸如文件路徑等文件的非數值特征歸一化為可作為分類器的輸入的數值特征,從而有助于有效地自動識別諸如配置文件等文件。
附圖說明
通過結合附圖對本公開示例性實施方式進行更詳細的描述,本公開的上述以及其它目的、特征和優勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標號通常代表相同部件。
圖1A示出了根據本發明的實施例的用于歸一化文件的非數值特征的方法;
圖1B更詳細地示出了根據本發明的實施例的用于歸一化文件的非數值特征的方法的過程;
圖2示出了一組示例性文件元數據的正例;
圖3示出了將配置文件路徑實例切分為單詞、比較單詞以獲得匹配單詞及其匹配分數的列表、以及構成單詞序列的示例;
圖4示出了由給定文件的元數據的一組正例獲得單詞及單詞序列、并進而形成單詞庫的示例;
圖5示出了將測試實例的單詞和單詞序列與單詞庫中的單詞及單詞序列進行匹配和計算的示例;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410708694.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:道路急彎電子預警裝置
- 下一篇:一種基于地理信息的三維數據引擎系統





