[發明專利]一種識別垃圾郵件的方法和裝置在審
| 申請號: | 201610202020.6 | 申請日: | 2016-03-31 |
| 公開(公告)號: | CN107294834A | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 沈朝陽 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;H04L29/06 |
| 代理公司: | 北京市清華源律師事務所11441 | 代理人: | 沈泳,王永秀 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 垃圾郵件 方法 裝置 | ||
技術領域
本申請涉及垃圾郵件的識別的技術領域,具體涉及一種識別垃圾郵件的方法和裝置。本申請同時還涉及一種用于垃圾郵件識別的郵件指紋的生成方法和裝置。
背景技術
隨著網絡技術的發展,網絡環境遭受到很多的破壞,其中一種就是常見的垃圾郵件,垃圾郵件的出現嚴重影響用戶使用電子郵件的用戶體驗,甚至可能給用戶造成嚴重的損失。
垃圾郵件發送的行為特征之一是,發送大量內容相似的郵件給不同的郵件接收人,因此,一種常用的垃圾郵件識別策略是識別統計在一定時間段內接收到的同一類相似郵件的數量,如果該數量超過指定閥值,則被認為具有群發垃圾郵件嫌疑。
但是,針對上述識別策略,其存在一定的問題,其主要問題是,當郵件的內容相似時,如果其文本字串有一定變化,則該策略中生成的郵件指紋將出現很大差異,因此,無法統計歸于同一類相似垃圾郵件,也就不能通過該生成的郵件指紋判別郵件是否為垃圾郵件。然而,在現實中,已有不少垃圾郵件制造者有意識的在郵件文本中加入很多干擾信息,或者改寫編造更多的內容相似,但文本表面上差異較大的垃圾郵件,從而繞開郵件反垃圾系統的檢查。
因此,針對上述這些問題,采用現有技術進行垃圾郵件的識別將遇到較大的困難,另一方面也說明,采用現有方法識別的垃圾郵件的準確性并不高。
發明內容
本申請提供一種識別垃圾郵件的方法,以解決現有技術中存在的上述問題。
本申請另外提供一種識別垃圾郵件的裝置。
此外,本申請還提供一種用于垃圾郵件識別的郵件指紋的生成方法和裝置。
本申請提供一種識別垃圾郵件的方法,包括:
提取待識別的電子郵件的郵件特征;所述郵件特征用于表征從電子郵件中提取出的具有穩定特性的特征;
將所述郵件特征生成為特征串信息,通過預設指紋生成方法將所述特征串信息生成為郵件指紋;
將生成的所述郵件指紋與預先設定的郵件指紋集合中的已有指紋進行比對,當所述郵件指紋與已有指紋相匹配時,增加具有該郵件指紋的電子郵件計數;
判斷具有該郵件指紋的電子郵件計數是否大于或者等于預設閾值;
若是,則所述待識別的電子郵件為垃圾郵件。
可選的,所述郵件特征包括:郵件主題特征、郵件形態特征和/或垃圾郵件疑似特征。
可選的,當所述郵件特征為郵件主題特征時;
相應的,所述提取待識別的電子郵件的郵件特征步驟是,提取待識別的電子郵件的郵件主題特征;
所述郵件主題特征的獲取采用以下方式:
獲取所述郵件主題特征中的郵件分類信息;或者,
獲取所述郵件主題特征中的觸發動作信息;所述觸發動作信息表征引導做出進一步動作的信息;或者,
獲取所述郵件主題特征中的附件信息。
可選的,所述獲取所述郵件主題特征中的郵件分類信息步驟中,獲取郵件分類信息的方式包括:
通過預先設置的文本分類器獲取待識別的電子郵件的郵件內容類型,將所述郵件內容類型作為所述郵件主題特征中的郵件分類信息。
可選的,所述通過預先訓練的文本分類器獲取待識別的電子郵件的郵件內容類型步驟中,所述文本分類器包括:樸素貝葉斯文本分類器、支持向量計算法文本分類器或最小臨近法文本分類器。
可選的,在通過預先設置的文本分類器獲取待識別的電子郵件的郵件內容類型步驟之前,執行以下步驟:
將所述待識別的電子郵件進行預處理。
可選的,所述預處理包括以下處理方式中的至少一種:統一字符編碼處理、去除噪聲處理、分詞處理、歸一化處理。
可選的,所述獲取所述郵件主題特征中的觸發動作信息步驟中的觸發動作信息包括:回復的郵件地址、電話、社交軟件聯系方式、銀行卡信息、公司信息和/或網頁鏈接符號。
可選的,當所述觸發動作信息為網頁鏈接符號時;
相應的,所述獲取所述郵件主題特征中的郵件分類信息步驟之后,執行以下步驟:
判斷所述網頁鏈接符號對應的網址是否為常規網址;
若是,將該網址中的參數部分去除,形成的新網址記錄為保留網址集;
若否,判斷該網址是否為短網址;
當該網址為短網址時,將網址的域名部分保留形成的新網址記錄為保留網址集;
將所述保留網址集中的網址與預設的白名單進行匹配,將所述保留網址集中與所述白名單中的信息相同的網址排除,形成新的保留網址集;
將所述新的保留網址集作為附加網頁鏈接符號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610202020.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息交互的方法及終端
- 下一篇:報文轉發方法和裝置





