[發(fā)明專利]用于使用主題信息識別垃圾消息的系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 201611102731.2 | 申請日: | 2016-12-05 |
| 公開(公告)號: | CN107018062B | 公開(公告)日: | 2021-06-11 |
| 發(fā)明(設計)人: | 羅曼·A·德登諾克 | 申請(專利權)人: | 卡巴斯基實驗室股份公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 北京市磐華律師事務所 11336 | 代理人: | 高偉;卜璐璐 |
| 地址: | 俄羅斯聯(lián)*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 使用 主題 信息 識別 垃圾 消息 系統(tǒng) 方法 | ||
用于識別垃圾電子郵件消息的系統(tǒng)和方法。系統(tǒng)可以包括配置為存儲多個比例確定規(guī)則的規(guī)則數(shù)據(jù)庫,配置為存儲多個已知矢量的矢量數(shù)據(jù)庫,配置為接收電子郵件消息的消息處理工具,配置為根據(jù)所述比例確定規(guī)則建立k?跳過?n元語法(k?skip?n?gram)詞組集合的語法模型(gram)建立工具,配置為接收所述k?skip?n?gram詞組集合、并為每個k?skip?n?gram詞組建立矢量的矢量建立工具,以及配置為根據(jù)每個k?skip?n?gram詞組與特定電子郵件消息主題字段主題類別的多個已知矢量的余弦相似性來確定垃圾消息存在閾值、并在所述垃圾消息存在閾值被超過時確定該電子郵件消息包含垃圾消息的垃圾消息識別工具。
本申請要求于2016年6月24日提交的2016125278號俄國申請的權益,其公開通過引用合并于此。
技術領域
實施例總地涉及信息安全,并且更具體地涉及用于識別垃圾消息(spam message)的系統(tǒng)和方法。
背景技術
互聯(lián)網(wǎng)廣告是最便宜的廣告類型之一。基于互聯(lián)網(wǎng)的垃圾消息是互聯(lián)網(wǎng)廣告的最普遍的類型,占電子郵件流量總量的70%-90%。垃圾消息是廣告或其他類型的信息向沒有請求它們的人們的大量發(fā)送。垃圾消息包括通過電子郵件、通過即時消息傳送協(xié)議、在社交網(wǎng)絡、博客、交友網(wǎng)站、論壇上發(fā)送的消息,以及SMS和MMS消息。
增長的垃圾消息量引發(fā)了許多技術、經(jīng)濟和犯罪議題。這些議題包括數(shù)據(jù)傳輸裝置和其他資源的重負荷、用戶處理消息的時間、以及趨于詐騙和盜竊的消息內(nèi)容轉(zhuǎn)移。很明顯,對于檢測和控制垃圾消息存在著迫切的需要。
有很多方法來對抗垃圾消息。最有效的方法之一是使用反垃圾消息軟件,例如用于識別和移除不受歡迎的垃圾消息的反垃圾消息應用程序。反垃圾消息應用程序可以使用有助于過濾和移除垃圾消息的方法。這種方法通常基于詞組的分析和來自消息文本的詞組的校驗和。
例如,7,555,523號美國專利描述了一種系統(tǒng),在該系統(tǒng)中使用各種長度的N元語法模型(n-gram)分析消息正文的字母序列。基于從包含垃圾消息的序列的數(shù)據(jù)庫中查找相似的序列做出關于消息中是否包含垃圾消息的結(jié)論。
發(fā)明內(nèi)容
在一個實施例中,一種用于識別垃圾電子郵件消息的系統(tǒng)包括:計算平臺,所述計算平臺包括至少一個處理器的計算硬件、可操作地耦連至所述至少一個處理器并且配置為存儲由所述至少一個處理器調(diào)用的指令的存儲器、在所述計算硬件上實現(xiàn)的操作系統(tǒng)、以及輸入/輸出設備;規(guī)則數(shù)據(jù)庫,所述規(guī)則數(shù)據(jù)庫配置為存儲多個比例確定規(guī)則,所述比例確定規(guī)則包括用于文本串的一組條件,針對所述條件所述規(guī)則被用于確定語法模型(gram)中的單詞的n值以及在輸入文本中要跳過的單詞的k值;矢量數(shù)據(jù)庫,所述矢量數(shù)據(jù)庫配置為存儲多個已知矢量,其中所述多個已知矢量按照主題類別而被分類;指令,當所述指令在所述計算平臺上執(zhí)行時,使所述計算平臺實現(xiàn):消息處理工具,所述消息處理工具配置為經(jīng)由所述輸入/輸出設備接收電子郵件消息,所述電子郵件消息包含主題字段,gram建立工具,所述gram建立工具配置為根據(jù)所述規(guī)則數(shù)據(jù)庫中的比例確定規(guī)則所確定的用于所述輸入文本的主題字段的所述k值和所述n值之比來建立k-跳過-n元語法(k-skip-n-gram)詞組集合,矢量建立工具,所述矢量建立工具配置為從所述gram建立工具接收所述k-skip-n-gram詞組集合、并為每個k-skip-n-gram詞組建立矢量,以及垃圾消息識別工具,所述垃圾消息識別工具配置為根據(jù)每個k-skip-n-gram詞組與特定電子郵件消息主題字段主題類別的多個已知矢量的余弦相似性(similarity)來確定垃圾消息存在閾值,并在所述垃圾消息存在閾值被超過時確定所述電子郵件消息包含垃圾消息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卡巴斯基實驗室股份公司,未經(jīng)卡巴斯基實驗室股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611102731.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





