[發明專利]一種過濾垃圾郵件的方法、裝置及郵件服務器有效
| 申請號: | 201710537313.4 | 申請日: | 2017-07-04 |
| 公開(公告)號: | CN107171948B | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 楊良志;劉再元;汪志新;丁德平 | 申請(專利權)人: | 彩訊科技股份有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 潘登 |
| 地址: | 518000 廣東省深圳市南山區粵海街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 過濾 垃圾郵件 方法 裝置 郵件 服務器 | ||
本發明實施例公開了一種過濾垃圾郵件的方法、裝置及郵件服務器。該方法包括通過預設規則庫包括的第一規則對新接收的郵件進行預判定,得到郵件的參考垃圾評分;獲取以歷史郵件為機器學習的訓練樣本,對第一規則進行訓練生成的第一垃圾概率值;基于聚類算法,根據第一垃圾概率值計算得到郵件的第二垃圾概率值;根據第二垃圾概率值的取值范圍生成對應的聚合規則,并對聚合規則進行數據挖掘得到聚合規則對應的垃圾分值;根據參考垃圾評分和垃圾分值的和,判斷郵件是否為垃圾郵件,解決垃圾郵件誤判或漏判的問題,可以提升反垃圾引擎過濾垃圾郵件的能力,減少垃圾郵件誤判或漏判的可能性。
技術領域
本發明實施例涉及通信技術領域,尤其涉及一種過濾垃圾郵件的方法、裝置及郵件服務器。
背景技術
隨著網絡用戶的迅速增加,收發郵件已成為用戶進行交流聯系的主要手段。由于無需事前征求用戶同意就可以在短時間內發送大量郵件給一個或者多個用戶,因此郵件為廣告宣傳提供了成本低廉、傳播面廣的傳播平臺;正是由于這種非法利益的驅使,近年來垃圾郵件快速增長,所以迫切需要一個有效的方式來過濾垃圾郵件。
郵件過濾的核心問題是如何使用已知的郵件文本數據集合建立一個文本分類模型,然后使用這個模型對郵件類型進行判別,從而過濾出垃圾郵件。由于垃圾郵件過濾實際上是一個二分類問題,所以傳統的分類方法雖然可以達到目的,但是效果并不好。目前郵件過濾主要采用的方法是給予規則過濾的方法,這種方法對于規則的依賴性很強,只要規則選取的好,相應的過濾結果也會非常好。但是垃圾郵件的特征也會不斷的變化,導致傳統的垃圾郵件過濾技術存在缺陷,對于垃圾郵件誤判或漏判的可能性大大增加。
發明內容
本發明實施例提供一種過濾垃圾郵件的方法、裝置及郵件服務器,可以提升反垃圾引擎過濾垃圾郵件的能力,減少垃圾郵件誤判或漏判的可能性。
第一方面,本發明實施例提供了一種過濾垃圾郵件的方法,包括:
通過預設規則庫包括的第一規則對新接收的郵件進行預判定,得到所述郵件的參考垃圾評分;
獲取以歷史郵件為機器學習的訓練樣本,對所述第一規則進行訓練生成的第一垃圾概率值;
基于聚類算法,根據所述第一垃圾概率值計算得到所述郵件的第二垃圾概率值,其中,第一垃圾概率值包括由第一規則判定所述郵件為垃圾郵件的概率,以及由第一規則判定所述郵件為正常郵件的概率;
根據所述第二垃圾概率值的取值范圍生成對應的聚合規則,并對所述聚合規則進行數據挖掘得到所述聚合規則對應的垃圾分值,其中,所述垃圾分值為正值或負值;
根據所述參考垃圾評分和垃圾分值的和,判斷所述郵件是否為垃圾郵件。
第二方面,本發明實施例還提供了一種過濾垃圾郵件的裝置,該裝置包括:
郵件預判定模塊,用于通過預設規則庫包括的第一規則對新接收的郵件進行預判定,得到所述郵件的參考垃圾評分;
獲取模塊,用于獲取以歷史郵件為機器學習的訓練樣本,對所述第一規則進行訓練生成的第一垃圾概率值;
計算模塊,用于基于聚類算法,根據所述第一垃圾概率值計算得到所述郵件的第二垃圾概率值,其中,第一垃圾概率值包括由第一規則判定所述郵件為垃圾郵件的概率,以及由第一規則判定所述郵件為正常郵件的概率;
垃圾分值確定模塊,用于根據所述第二垃圾概率值的取值范圍生成對應的聚合規則,并對所述聚合規則進行數據挖掘得到所述聚合規則對應的垃圾分值,其中,所述垃圾分值為正值或負值;
垃圾郵件判斷模塊,用于根據所述參考垃圾評分和垃圾分值的和,判斷所述郵件是否為垃圾郵件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于彩訊科技股份有限公司,未經彩訊科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710537313.4/2.html,轉載請聲明來源鉆瓜專利網。





