[發明專利]用于歸一化文件的非數值特征的方法和裝置有效
| 申請號: | 201410708694.4 | 申請日: | 2014-11-28 |
| 公開(公告)號: | CN105701118B | 公開(公告)日: | 2019-05-28 |
| 發明(設計)人: | 孟繁晶;楊林;李長升;徐景民;E·H·斯特恩;卓雪君;王晗 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 張亞非;于靜 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 歸一化 文件 數值 特征 方法 裝置 | ||
1.一種用于歸一化文件的非數值特征的方法,包括:
將給定文件的非數值特征的至少一對正例切分為若干單詞;
通過將所述至少一對正例中的單詞進行比較獲得匹配的單詞;以及
針對所述匹配的單詞,計算其匹配該給定文件的權重,并將所述匹配的單詞及其權重存儲在單詞庫中,
其中,所述通過將所述至少一對正例中的單詞進行比較獲得匹配的單詞包括:
計算一個正例中的每個單詞與另一個正例中的各單詞之間的最大匹配分數;
選擇最大匹配分數大于給定閾值的單詞,從而獲得所述匹配的單詞。
2.根據權利要求1的方法,還包括:
由所述匹配的單詞構成作為正例的片段的單詞序列;以及
針對所述單詞序列,計算其匹配該給定文件的權重,并將所述單詞序列及其權重存儲在單詞庫中。
3.根據權利要求2的方法,還包括:
響應于接收到測試文件的非數值特征的測試實例,將該測試實例切分為若干單詞和單詞序列;
通過將該測試實例的單詞和單詞序列與單詞庫中的單詞及單詞序列進行匹配計算該測試實例匹配給定文件的分數,作為所述測試文件的非數值特征的歸一化的數值特征。
4.根據權利要求1至3中任何一個的方法,其中,所述將至少一對正例切分為若干單詞,是利用所述非數值特征的結構特點進行的。
5.根據權利要求1至3中任何一個的方法,其中,所述針對所述匹配的單詞或單詞序列,計算其匹配該給定文件的權重包括:
根據所述匹配的單詞或單詞序列在所述正例中的出現次數、該單詞或單詞序列的單詞長度、以及該單詞或單詞序列在正例中的單詞位置中的至少一個,計算其匹配該給定文件的權重,其中,所述出現次數越大、單詞長度越大或單詞位置越靠后,則權重越大。
6.根據權利要求5的方法,其中,所述根據所述匹配的單詞或單詞序列在所述正例中的出現次數、該單詞或單詞序列的單詞長度、以及該單詞或單詞序列在正例中的位置中的至少一個,計算其匹配該給定文件的權重是分別使用以下公式中的至少一個進行的:
weight=position_coefficient·position,
其中,weight表示要計算的權重,count表示該單詞或單詞序列在所述正例中的出現次數,count_coefficient表示用于出現次數的指定系數,max_count表示所述正例中的實例數,length表示該單詞或單詞序列的單詞長度,length_coefficient表示用于單詞長度的指定系數,max_length表示其所屬正例的單詞長度,position表示該單詞或單詞序列在其正例中的相對位置,position_coefficient表示用于位置的指定系數,其中,所述count_coefficient、length_coefficient和position_coefficient的和為零。
7.根據權利要求3的方法,其中,通過將該測試實例的單詞和單詞序列與單詞庫中的單詞及單詞序列進行匹配計算該測試實例匹配給定文件的分數包括:
獲得該測試實例的由單詞和單詞序列構成的不同組合方式;
將每種組合方式下的每個單詞和單詞序列與單詞庫中的單詞及單詞序列進行比較,獲得單詞庫中最相似的單詞或單詞序列,以及其相似度和所述權重;
對于每種組合方式,根據其單詞和單詞序列的最相似單詞或單詞序列的相似度和權重,計算該每種組合方式的權重;以及
獲得不同組合方式中的最大權重,作為該測試實例匹配給定文件的分數。
8.根據權利要求3中任何一個的方法,還包括:
根據該測試文件的歸一化的數值特征判斷該測試文件是否是所述給定文件。
9.根據權利要求8的方法,其中,所述根據該測試文件的歸一化的數值特征判斷該測試文件是否是所述給定文件包括:
將該測試文件的歸一化的數值特征提供給分類器,以用于判斷該測試文件是否是所述給定文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410708694.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:道路急彎電子預警裝置
- 下一篇:一種基于地理信息的三維數據引擎系統





