[發(fā)明專利]使用多尺度文本指紋的文檔分類有效
| 申請?zhí)枺?/td> | 201480007764.1 | 申請日: | 2014-02-04 |
| 公開(公告)號: | CN104982011B | 公開(公告)日: | 2018-12-14 |
| 發(fā)明(設計)人: | 阿德里安·托馬;馬里厄斯·尼古拉·蒂貝卡 | 申請(專利權)人: | 比特梵德知識產權管理有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 北京律盟知識產權代理有限責任公司 11287 | 代理人: | 張世俊 |
| 地址: | 塞浦路斯*** | 國省代碼: | 塞浦路斯;CY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 尺度 文本 指紋 文檔 分類 | ||
1.一種客戶端計算機系統(tǒng),其包括至少一個處理器,所述至少一個處理器經配置以確定目標電子文檔的文本指紋,使得所述文本指紋的長度約束在下限與上限之間,其中所述下限及上限為預定的,且其中確定所述文本指紋包括:
選擇所述目標電子文檔的多個文本標記,其中選擇所述多個文本標記包括:
選擇所述目標電子文檔的初步多個文本標記,
確定所述初步多個文本標記的計數(shù),及
作為響應,當所述初步多個文本標記的所述計數(shù)超過預定閾值時,修剪所述初步多個文本標記以形成所選擇的多個文本標記,使得所選擇的多個標記的計數(shù)不超過所述預定閾值;
響應于選擇所述多個文本標記,根據所述上限及下限且根據所選擇的多個文本標記的所述計數(shù)而確定指紋片段大小;
確定多個指紋片段,所述多個指紋片段中的每一指紋片段是根據所選擇的多個文本標記中的相異文本標記的散列而確定,每一指紋片段由字符序列組成,所述序列的長度經選擇為等于所述指紋片段大小;及
級聯(lián)所述多個指紋片段以形成所述文本指紋。
2.根據權利要求1所述的客戶端計算機系統(tǒng),其中所述至少一個處理器經進一步配置以:
將所述文本指紋發(fā)送到服務器計算機系統(tǒng);及
從所述服務器計算機系統(tǒng)接收針對所述目標電子文檔所確定的目標標簽,所述目標標簽指示所述目標電子文檔所屬的文檔類別,其中確定所述目標標簽包括:
從參考指紋的數(shù)據庫檢索參考指紋,所述參考指紋是針對屬于所述類別的參考電子文檔而確定,所述參考指紋是根據所述參考指紋的長度而選擇,使得所述參考指紋的所述長度在所述上限與下限之間;及
根據比較所述文本指紋與所述參考指紋的結果而確定所述目標電子文檔是否屬于所述類別。
3.根據權利要求2所述的客戶端計算機系統(tǒng),其中所述文檔類別為垃圾郵件類別。
4.根據權利要求2所述的客戶端計算機系統(tǒng),其中所述文檔類別為詐騙性文檔類別。
5.根據權利要求1所述的客戶端計算機系統(tǒng),其中確定所述文本指紋進一步包括:根據所述相異文本標記的所述散列的位的相異群組而確定所述字符序列中的每一字符。
6.根據權利要求1所述的客戶端計算機系統(tǒng),其中修剪所述初步多個文本標記包括:根據所述初步多個文本標記中的目標文本標記的散列而將所述目標文本標記選擇為所選擇的多個文本標記。
7.根據權利要求6所述的客戶端計算機系統(tǒng),其中修剪所述初步多個文本標記進一步包括:
確定所述目標文本標記的所述散列是否能被縮小因數(shù)整除;及
作為響應,當所述目標文本標記能被所述縮小因數(shù)整除時,將所述目標文本標記選擇為所選擇的多個文本標記。
8.根據權利要求1所述的客戶端計算機系統(tǒng),其中選擇所述多個文本標記進一步包括,當所述初步多個文本標記的所述計數(shù)超過所述預定閾值時:
確定多個聚合文本標記,所述多個聚合文本標記中的每一聚合文本標記包括所述初步多個文本標記的文本標記集合的級聯(lián);及
根據所述聚合文本標記的散列而將所述多個聚合文本標記中的聚合標記選擇為所選擇的多個文本標記。
9.根據權利要求1所述的客戶端計算機系統(tǒng),其中所述目標電子文檔是選自由電子郵件消息及超文本標記語言HTML文檔組成的群組。
10.根據權利要求1所述的客戶端計算機系統(tǒng),其中所述相異文本標記包括選自由目標電子通信的字、電子郵件地址及統(tǒng)一資源定位符URL組成的群組的項目。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于比特梵德知識產權管理有限公司,未經比特梵德知識產權管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201480007764.1/1.html,轉載請聲明來源鉆瓜專利網。





