[發明專利]反垃圾郵件網關系統及方法有效
| 申請號: | 201110304470.3 | 申請日: | 2011-10-10 |
| 公開(公告)號: | CN102377690A | 公開(公告)日: | 2012-03-14 |
| 發明(設計)人: | 蔡瑞初;向東;熊衛華;洪陸駕;譚景峰;喬斌;潘雷明;周達和 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;H04L12/24;G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 310012 浙江省杭州市西*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 垃圾郵件 網關 系統 方法 | ||
技術領域
本發明涉及電子郵件處理領域,特別涉及一種基于大規模郵件內容聚類的反垃圾郵件網關系統及方法。
背景技術
垃圾郵件通常被定義為具有下述屬性的電子郵件:(一)收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件;(二)收件人無法拒收的電子郵件;(三)隱藏發件人身份、地址、標題等信息的電子郵件;(四)含有虛假的信息源、發件人、路由等信息的電子郵件。
自從第一封垃圾郵件誕生以來,垃圾郵件成了困擾郵件用戶的難題,也成了郵件運營商的提高用戶體驗、吸引用戶的重要考慮因素。反垃圾郵件的任務是將垃圾郵件阻擋在郵件系統或者用戶收件箱以外。主流的的反垃圾技術主要基于郵件內容和郵件發信行為。
現有的基于郵件內容的反垃圾郵件技術主要有:開源系統Dspam(通過網站http://www.nuclearelephant.com可以下載);騰訊科技(深圳)有限公司的申請號為200810227762、發明名稱為“專利對垃圾郵件進行攔截的方法和裝置”的專利申請;浙江大學的申請號為200810059602、發明名稱為“基于Logistic回歸的中文垃圾郵件過濾方法”的專利申請;北京大學的申請號為200810115584、發明名稱為“一種垃圾郵件檢測方法”的專利申請等。
上述反垃圾郵件技術主要包括訓練和線上使用兩個流程,下面以Dspam為例介紹其在訓練和線上使用時的幾個主要步驟,其余相關技術基本類似。Dspam的訓練流程包含以下幾個步驟:1、獲取大量郵件樣本并將這些樣本人工標識為垃圾郵件和正常郵件;2、對郵件進行解碼;3、對郵件正文內容進行分詞;4、統計各個分詞出現的頻率;5、使用貝葉斯公式訓練樸素貝葉斯分類模型。Dspam模型訓練好以后,線上使用流程相對簡單,僅包含以下兩個步驟:1、對線上郵件進行分詞;2、使用訓練好的樸素貝葉斯分類模型對郵件進行分類。
基于實時發信行為的反垃圾郵件策略與基于內容反垃圾郵件策略的具有較大差別。基于實時行為的反垃圾系統一般沒有訓練這個步驟。典型的郵件發信行為的反垃圾策略主要有Checksum(通過網站http://www.rhyolite.com/dcc/可以下載),哈爾濱工程大學的申請號為200810064806、發明名稱為“一種基于拓撲行為的垃圾郵件判定方法”專利申請等。下面以Checksum為例介紹其基本流程。Checksum的基本假設為重復度大的郵件為垃圾郵件,其流程大致如下:1、針對每個郵件算一個指紋;2、針對線上系統所有郵件的指紋進行計數;3、對于指紋重復度高的郵件直接判為垃圾郵件。
郵件內容和實時發信行為相結合是目前商業反垃圾郵件系統方面的主流。將郵件內容和實時發信行為特性轉換為規則,并采取各個規則累積加分,并根據得分閾值判斷是否為垃圾郵件是將兩者結合的有效手段。代表性的技術有,開源系統的SpamAssassin(通過網站http://spamassassin.apache.org/可以下載)、華南理工大學的申請號為200710029369、發明名稱為“基于綜合決策的防垃圾郵件誤過濾方法及系統”的專利申請,商業系統賽門鐵克公司的bright?mail系統(通過網站http://www.symantec.com/business/products/family.jsp?familyid=brightmail可以下載),漢啟科技的KBAS系統(通過網站http://www.hanqinet.com/projectl.html可以下載)等。以SpamAssassin為代表的介紹其主要流程。SpamAssassin包含訓練和線上使用兩個流程。基于規則的反垃圾相關技術的訓練主要包括以下幾個步驟:1、獲取大量郵件樣本并將這些樣本人工標識為垃圾郵件和正常郵件;2、人工添加規則并建立規則庫;3、使用人工標識樣本對規則進行評分。線上使用則包含以下兩個步驟:1、計算每封郵件匹配的規則;2、對所有滿足的規則得分求和并根據閾值判斷是否為垃圾郵件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110304470.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于模塑電子器件的襯底載體
- 下一篇:無線通信系統中的用戶設備和方法





