[發明專利]用于使用主題信息識別垃圾消息的系統和方法有效
| 申請號: | 201611102731.2 | 申請日: | 2016-12-05 | 
| 公開(公告)號: | CN107018062B | 公開(公告)日: | 2021-06-11 | 
| 發明(設計)人: | 羅曼·A·德登諾克 | 申請(專利權)人: | 卡巴斯基實驗室股份公司 | 
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 | 
| 代理公司: | 北京市磐華律師事務所 11336 | 代理人: | 高偉;卜璐璐 | 
| 地址: | 俄羅斯聯*** | 國省代碼: | 暫無信息 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 用于 使用 主題 信息 識別 垃圾 消息 系統 方法 | ||
1.一種用于識別垃圾電子郵件消息的系統,所述系統包括:
計算平臺,所述計算平臺包括至少一個處理器的計算硬件、可操作地耦連至所述至少一個處理器并且配置為存儲由所述至少一個處理器調用的指令的存儲器、在所述計算硬件上實現的操作系統、以及輸入/輸出設備;
規則數據庫,所述規則數據庫配置為存儲多個比例確定規則,所述比例確定規則包括用于文本串的一組條件,針對所述條件所述規則被用于確定在輸入文本中語法模型gram中單詞的n值以及在輸入文本中要跳過的單詞的k值;
矢量數據庫,所述矢量數據庫配置為存儲多個已知矢量,其中所述多個已知矢量按照主題類別而被分類;
指令,當所述指令在所述計算平臺上執行時,使所述計算平臺實現:
消息處理工具,所述消息處理工具配置為經由所述輸入/輸出設備接收電子郵件消息,所述電子郵件消息包含主題字段,所述消息處理工具還配置為確定所述主題字段的至少一個文本參數;
比例確定工具,所述比例確定工具配置為基于所述文本參數和所述多個比例確定規則來確定所述主題字段中語法模型gram中單詞的n值和要跳過的單詞的k值;
gram建立工具,所述gram建立工具配置為根據所述k值和所述n值來為所述主題字段建立k-跳過-n元語法k-skip-n-gram詞組集合,其中所述k-skip-n-gram詞組集合是一個詞組序列,所述詞組序列中的每個詞組包括n個單詞,在每個詞組的n個單詞的兩兩單詞之間最多k個單詞被跳過,
矢量建立工具,所述矢量建立工具配置為從所述gram建立工具接收所述k-skip-n-gram詞組集合、并為每個k-skip-n-gram詞組建立矢量,以及
垃圾消息識別工具,所述垃圾消息識別工具配置為根據每個k-skip-n-gram詞組與特定電子郵件消息主題字段主題類別的多個已知矢量的余弦相似性來確定垃圾消息存在比例的極限值,至少基于所有建立的矢量之間的余弦相似性的比例計算垃圾消息存在比例的當前值,并在所述垃圾消息存在比例的當前值超過所述垃圾消息存在比例的極限值時確定所述電子郵件消息包含垃圾消息。
2.權利要求1所述的用于識別垃圾電子郵件消息的系統,所述至少一個文本參數包括:
所述主題字段的語言;
所述主題字段中的單詞的數量;
所述主題字段中的冠詞的數量;
所述主題字段中的標點符號的數量;
所述主題字段中的代詞的數量;以及
所述主題字段中的介詞的數量。
3.權利要求1所述的用于識別垃圾電子郵件消息的系統,其中所述k-skip-n-gram詞組集合由所述gram建立工具根據下述公式建立:
其中,n為所述詞組集合中的每個詞組包括的單詞的個數,k為所述主題字段中要跳過的單詞的個數的最大值,w表示單詞。
4.權利要求1所述的用于識別垃圾電子郵件消息的系統,其中所述矢量建立工具配置為通過使所述多個已知矢量中的至少一個與為每個k-skip-n-gram詞組建立的矢量中的至少一個之間的高余弦相似性與所述多個已知矢量中的至少一個的主題類別相等來確定特定電子郵件消息主題字段的主題類別。
5.權利要求1所述的用于識別垃圾電子郵件消息的系統,其中所述電子郵件消息包含垃圾消息的確定至少包括對所有建立的矢量的余弦相似性的算術平均。
6.權利要求1所述的用于識別垃圾電子郵件消息的系統,其中所述垃圾消息存在比例的極限值是通過對文本消息集合的回歸分析來確定的。
7.權利要求6所述的用于識別垃圾電子郵件消息的系統,其中所述垃圾消息存在比例的極限值是基于由所述gram建立工具建立的k-skip-n-gram詞組的數量以及與所建立矢量中的至少一個具有高余弦相似性的多個已知矢量的數量來調整的。
8.權利要求1所述的用于識別垃圾電子郵件消息的系統,其中所述主題字段包括三個或三個以上的單詞的文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卡巴斯基實驗室股份公司,未經卡巴斯基實驗室股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611102731.2/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





