[發明專利]生成用于識別垃圾電子郵件的啟發式規則的系統和方法在審
| 申請號: | 201911159541.8 | 申請日: | 2019-11-22 |
| 公開(公告)號: | CN111752973A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 羅曼·A·德登諾克;德米特里·S·戈魯別夫;彼得·Y·薩爾尼科夫 | 申請(專利權)人: | 卡巴斯基實驗室股份制公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/2458 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 何月華 |
| 地址: | 俄羅斯*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生成 用于 識別 垃圾 電子郵件 啟發式 規則 系統 方法 | ||
1.一種生成用于識別垃圾電子郵件的啟發式規則的方法,所述方法包括:
通過處理器收集關于多個電子郵件的內容的統計數據;
通過所述處理器分析收集到的所述統計數據,以識別所述電子郵件的內容的不同類型,該內容的不同類型包括所述電子郵件的標題和超鏈接中的一者或多者;
通過所述處理器基于識別出的所述電子郵件中的所述內容的不同類型將所述多個電子郵件分組成一個或多個簇,其中,至少一個簇包括所述電子郵件的標題中的字段的一個或多個群組;
通過所述處理器選擇各個簇中的數據的至少一個最常見的群組組合;
通過所述處理器從所述至少一個最常見的群組組合生成散列;
通過所述處理器基于對與生成的所述散列相對應的電子郵件的超鏈接的分析而形成至少一個正則表達式;以及
由所述處理器通過將至少一個散列與相應的正則表達式組合來生成用于識別垃圾電子郵件的至少一個啟發式規則,其中,至少一個散列源自于所述電子郵件的標題的字段的序列。
2.根據權利要求1所述的方法,其中,所述正則表達式通過如下方式形成:
根據已建立的分隔符將每個已識別的超鏈接劃分成多個段;
針對每個超鏈接,計算通過所述劃分而獲得的段的數量;
將段的數量彼此相同的超鏈接逐段進行比較;以及
根據所述超鏈接的長度將所述超鏈接組合成正則表達式,其中,如果段相同,則將該段保持不變;如果段不相同,則將該段轉換成僅保留相同值的形式。
3.根據權利要求1所述的方法,還包括:
在生成所述啟發式規則之前,對每個散列,在僅包含非垃圾電子郵件的散列的散列集上執行初步檢查,其中,僅當所述初步檢查未找到與所述散列集中的任一散列的匹配時,才在生成所述啟發式規則時使用該散列。
4.根據權利要求3所述的方法,其中,所述散列集至少包含與合法電子郵件相對應的散列的集合、以及與包含垃圾信息的電子郵件相對應的散列的集合。
5.根據權利要求1所述的方法,其中,基于以下項中的至少一者來識別所述最常見的群組組合:針對為獲取所述統計數據而分析的電子郵件的數量所建立的閾值、或者超過或達到用于將從其獲取所述統計數據的所述電子郵件中的預定百分比的電子郵件匯集在一起的閾值。
6.根據權利要求1所述的方法,其中,所述統計數據是基于對所述電子郵件的詞法分析來獲取的。
7.根據權利要求1所述的方法,還包括:
在合法電子郵件的集合上驗證生成的所述啟發式規則;以及
當驗證的所述啟發式規則不與任一電子郵件匹配時,則將所述啟發式規則發送至用戶。
8.根據權利要求1所述的方法,其中,所述散列至少包括MD5。
9.一種生成用于識別垃圾電子郵件的啟發式規則的系統,包括:
至少一個處理器,所述至少一個處理器被配置為:
收集關于多個電子郵件的內容的統計數據;
分析收集到的所述統計數據,以識別所述電子郵件的內容的不同類型,該內容的不同類型包括所述電子郵件的標題和超鏈接中的一者或多者;
基于識別出的所述電子郵件中的所述內容的不同類型將所述多個電子郵件分組成一個或多個簇,其中,至少一個簇包括所述電子郵件的標題中的字段的一個或多個群組;
選擇各個簇中的數據的至少一個最常見的群組組合;
從所述至少一個最常見的群組組合生成散列;
基于對與生成的所述散列相對應的電子郵件的超鏈接的分析而形成至少一個正則表達式;以及
通過將至少一個散列與相應的正則表達式組合來生成用于識別垃圾電子郵件的至少一個啟發式規則,其中,至少一個散列源自于所述電子郵件的標題的字段的序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卡巴斯基實驗室股份制公司,未經卡巴斯基實驗室股份制公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911159541.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:估算螺栓的夾緊力的方法
- 下一篇:一種學習筆記的推薦方法及電子設備





