[發明專利]快速高準確率的垃圾郵件過濾方法無效
| 申請號: | 201110096774.5 | 申請日: | 2011-04-18 |
| 公開(公告)號: | CN102158428A | 公開(公告)日: | 2011-08-17 |
| 發明(設計)人: | 黃力;李瑞娟;孔軼艷;韋彬貴;張愛科;李可長;王慧;張德平 | 申請(專利權)人: | 柳州職業技術學院 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06F17/30 |
| 代理公司: | 柳州市榮久專利商標事務所(普通合伙) 45113 | 代理人: | 周小芹 |
| 地址: | 545005 廣*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 快速 準確率 垃圾郵件 過濾 方法 | ||
技術領域
本發明涉及一種電子郵件的處理方法,特別是一種快速高準確率的垃圾郵件過濾方法。
背景技術
隨著網絡電子郵件的日益普及,越來越多的人們利用電子郵件進行信息的傳輸。然而,大量帶有廣告性質、政治目的和惡意鏈接的垃圾郵件數量也在急劇增長。據統計,目前在整個互聯網上傳遞的郵件信息,有超過一半是垃圾郵件。垃圾郵件的泛濫不僅給用戶的正常網絡應用帶來極大的干擾,而且,大量的垃圾郵件也占用了巨大的網絡帶寬,浪費了網絡運行商和網絡終端用戶大量帶寬。目前,針對網絡垃圾的過濾已經有不少相關研究,主要分為基于黑白名單的過濾方法、基于規則的過濾方法和基于內容的過濾方法。其中前兩種的垃圾郵件過濾方法效率較高,在準確度上欠缺,而第三種垃圾郵件過濾方法引入了決策樹方法、粗糙集方法、人工智能方法等等,通過這些方法的應用能夠提高垃圾郵件的過濾準確度,但是與此同時,計算復雜度也較高,導致垃圾郵件過濾服務器負荷較重,正常郵件的傳輸延時大幅增加。而目前垃圾郵件大量存在的現狀也說明了當前的垃圾郵件處理策略還需改進。
發明內容
本發明要解決的技術問題是:提供一種快速高準確率的垃圾郵件過濾方法,以解決現有技術中存在的準確度欠缺、垃圾郵件過濾服務器負荷較重、正常郵件的傳輸延時增加的不足之處。
解決上述技術問題的技術方案是:一種快速高準確率的垃圾郵件過濾方法,該方法是首先對接收到的所有郵件進行預處理,提取郵件的主要特征信息;然后將該郵件的主要特征信息與垃圾郵件過濾數據庫進行對比,尋找垃圾郵件過濾數據庫中是否存在與該郵件相同或小于某一閾值的特征相似郵件,若存在則判斷該郵件為與現有數據庫中郵件雷同的郵件,標記為垃圾郵件,并紀錄該垃圾郵件的特征重復出現次數;否則,認為當前郵件為正常郵件,并將郵件的特征信息添加到垃圾郵件過濾信息數據庫中.
本發明的進一步技術方案是:該方法包括以下主要步驟:
S1、郵件數據接入:接收全部的郵件數據流,從郵件數據流中分離出每一封郵件,記為????????????????????????????????????????????????;
S2、郵件預處理:對郵件進行預處理;
S3、郵件特征的提取:
按設定好的郵件特征提取粒度,采用MD5算法計算該粒度下的文本信息特征生成,并將該文本信息特征存儲在該郵件的特征信息表中;所述MD5算法的計算公式為:,其中MD5表示MD5的HASH運算,?Mail_Text表示郵件中的一個特征提取粒度,Pad表示當郵件長度不是512的整數倍時,添加的填充值,以使郵件長度為512的整數倍;
S4、導入權值,修正各個特征值的最終數值:
對特征信息表中的所有特征信息導入權值λ,進行加權處理,并修正各個特征值的最終數值,所述的權值λ取值范圍一般為0~1;
S5、形成帶權值的郵件特征信息表:
所述的特征信息表形成帶權值的郵件特征信息表;
S6、檢測當前郵件是否為垃圾郵件:
將帶權值的郵件特征信息表逐條紀錄與垃圾郵件過濾信息數據庫對比,尋找當前郵件特征信息表中的特征與垃圾郵件過濾信息數據庫中最相似的郵件,并按照郵件相似性決策函數的要求,計算這兩封郵件的相似程度,其中Mail1和Mail2表示兩封進行相似性對比的郵件文本,和分別表示兩封郵件相同的特征數量和所有特征數量,λ表示導入的權值,i表示特征序號;如果計算結果小于預先用戶設定的某一閾值,則判斷當前兩封郵件是相似的,確定為垃圾郵件,并紀錄該垃圾郵件的特征重復出現次數;否則,將當前的郵件作為正常郵件,并把該郵件的特征信息增加到垃圾郵件過濾信息數據庫中,所述的一般取0.2~0.8;
S7、判斷郵件是否處理結束:
判斷郵件是否處理結束,如果是,則處理結束;如果否,則轉回步驟S3繼續處理下一封電子郵件,直至所有的電子郵件都過濾完成。
本發明的再進一步技術方案是:所述的步驟S2、郵件預處理包括以下主要內容:
S2.1、郵件數據格式識別:
對每一個的郵件數據格式進行分析識別;
S2.2、去除郵件頭,形成郵件文本信息:
去除郵件頭,將剩余的全部信息轉換為文本格式的郵件信息;
S2.3、判斷郵件文本信息是否大于30KB:
如果郵件文本信息即郵件粒度大于30KB,則按“段”粒度對郵件特征進行提取及處理,即轉入步驟S2.4;如果郵件粒度小于或等于30KB,則按“句”粒度對郵件特征進行提取及處理,即轉入步驟S2.5;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于柳州職業技術學院,未經柳州職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110096774.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:非水電解質二次電池
- 下一篇:二次電池和包括該二次電池的電池模塊





