[發明專利]一種識別垃圾郵件的方法和裝置在審
| 申請號: | 201610202020.6 | 申請日: | 2016-03-31 |
| 公開(公告)號: | CN107294834A | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 沈朝陽 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;H04L29/06 |
| 代理公司: | 北京市清華源律師事務所11441 | 代理人: | 沈泳,王永秀 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 垃圾郵件 方法 裝置 | ||
1.一種識別垃圾郵件的方法,其特征在于,包括:
提取待識別的電子郵件的郵件特征;所述郵件特征用于表征從電子郵件中提取出的具有穩定特性的特征;
將所述郵件特征生成為特征串信息,通過預設指紋生成方法將所述特征串信息生成為郵件指紋;
將生成的所述郵件指紋與預先設定的郵件指紋集合中的已有指紋進行比對,當所述郵件指紋與已有指紋相匹配時,增加具有該郵件指紋的電子郵件計數;
判斷具有該郵件指紋的電子郵件計數是否大于或者等于預設閾值;
若是,則所述待識別的電子郵件為垃圾郵件。
2.根據權利要求1所述的識別垃圾郵件的方法,其特征在于,所述郵件特征包括:郵件主題特征、郵件形態特征和/或垃圾郵件疑似特征。
3.根據權利要求2所述的識別垃圾郵件的方法,其特征在于,當所述郵件特征為郵件主題特征時;
相應的,所述提取待識別的電子郵件的郵件特征步驟是,提取待識別的電子郵件的郵件主題特征;
所述郵件主題特征的獲取采用以下方式:
獲取所述郵件主題特征中的郵件分類信息;或者,
獲取所述郵件主題特征中的觸發動作信息;所述觸發動作信息表征引導做出進一步動作的信息;或者,
獲取所述郵件主題特征中的附件信息。
4.根據權利要求3所述的識別垃圾郵件的方法,其特征在于,所述獲取所述郵件主題特征中的郵件分類信息步驟中,獲取郵件分類信息的方式包括:
通過預先設置的文本分類器獲取待識別的電子郵件的郵件內容類型,將所述郵件內容類型作為所述郵件主題特征中的郵件分類信息。
5.根據權利要求4所述的識別垃圾郵件的方法,其特征在于,所述通過預先訓練的文本分類器獲取待識別的電子郵件的郵件內容類型步驟中,所述文本分類器包括:樸素貝葉斯文本分類器、支持向量計算法文本分類器或最小臨近法文本分類器。
6.根據權利要求4所述的識別垃圾郵件的方法,其特征在于,在通過預先 設置的文本分類器獲取待識別的電子郵件的郵件內容類型步驟之前,執行以下步驟:
將所述待識別的電子郵件進行預處理。
7.根據權利要求6所述的識別垃圾郵件的方法,其特征在于,所述預處理包括以下處理方式中的至少一種:統一字符編碼處理、去除噪聲處理、分詞處理、歸一化處理。
8.根據權利要求3所述的識別垃圾郵件的方法,其特征在于,所述獲取所述郵件主題特征中的觸發動作信息步驟中的觸發動作信息包括:回復的郵件地址、電話、社交軟件聯系方式、銀行卡信息、公司信息和/或網頁鏈接符號。
9.根據權利要求8所述的識別垃圾郵件的方法,其特征在于,當所述觸發動作信息為網頁鏈接符號時;
相應的,所述獲取所述郵件主題特征中的郵件分類信息步驟之后,執行以下步驟:
判斷所述網頁鏈接符號對應的網址是否為常規網址;
若是,將該網址中的參數部分去除,形成的新網址記錄為保留網址集;
若否,判斷該網址是否為短網址;
當該網址為短網址時,將網址的域名部分保留形成的新網址記錄為保留網址集;
將所述保留網址集中的網址與預設的白名單進行匹配,將所述保留網址集中與所述白名單中的信息相同的網址排除,形成新的保留網址集;
將所述新的保留網址集作為附加網頁鏈接符號。
10.根據權利要求3所述的識別垃圾郵件的方法,其特征在于,所述獲取所述郵件主題特征中的觸發動作信息步驟包括:
采用預設的模式匹配方法獲取所述郵件主題特征中的觸發動作信息。
11.根據權利要求10所述的識別垃圾郵件的方法,其特征在于,所述預設的模式匹配方法包括正則表達式方法。
12.根據權利要求3所述的識別垃圾郵件的方法,其特征在于,所述獲取所述郵件主題特征中的附件信息步驟包括:
判斷所述電子郵件中是否包含有附件;
若是,提取所述附件的后綴名作為所述附件信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610202020.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息交互的方法及終端
- 下一篇:報文轉發方法和裝置





