[發明專利]快速高準確率的垃圾郵件過濾方法無效
| 申請號: | 201110096774.5 | 申請日: | 2011-04-18 |
| 公開(公告)號: | CN102158428A | 公開(公告)日: | 2011-08-17 |
| 發明(設計)人: | 黃力;李瑞娟;孔軼艷;韋彬貴;張愛科;李可長;王慧;張德平 | 申請(專利權)人: | 柳州職業技術學院 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06F17/30 |
| 代理公司: | 柳州市榮久專利商標事務所(普通合伙) 45113 | 代理人: | 周小芹 |
| 地址: | 545005 廣*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 快速 準確率 垃圾郵件 過濾 方法 | ||
1.一種快速高準確率的垃圾郵件過濾方法,其特征在于:該方法是首先對接收到的所有郵件進行預處理,提取郵件的主要特征信息;然后將該郵件的主要特征信息與垃圾郵件過濾數據庫進行對比,尋找垃圾郵件過濾數據庫中是否存在與該郵件相同或小于某一閾值的特征相似郵件,若存在則判斷該郵件為與現有數據庫中郵件雷同的郵件,標記為垃圾郵件,并紀錄該垃圾郵件的特征重復出現次數;否則,認為當前郵件為正常郵件,并將郵件的特征信息添加到垃圾郵件過濾信息數據庫中。
2.根據權利要求1所述的快速高準確率的垃圾郵件過濾方法,其特征在于:該方法包括以下主要步驟:
S1、郵件數據接入:接收全部的郵件數據流,從郵件數據流中分離出每一封郵件,記為???????????????????????????????????????????????;
S2、郵件預處理:對郵件進行預處理;
S3、郵件特征的提取:
按設定好的郵件特征提取粒度,采用MD5算法計算該粒度下的文本信息特征生成,并將該文本信息特征存儲在該郵件的特征信息表中;所述MD5算法的計算公式為:,其中MD5表示MD5的HASH運算,?Mail_Text表示郵件中的一個特征提取粒度,Pad表示當郵件長度不是512的整數倍時,添加的填充值,以使郵件長度為512的整數倍;?
S4、導入權值,修正各個特征值的最終數值:
對特征信息表中的所有特征信息導入權值λ,進行加權處理,并修正各個特征值的最終數值,所述的權值λ取值范圍一般為0~1;
S5、形成帶權值的郵件特征信息表:
所述的特征信息表形成帶權值的郵件特征信息表;
S6、檢測當前郵件是否為垃圾郵件:
將帶權值的郵件特征信息表逐條紀錄與垃圾郵件過濾信息數據庫對比,尋找當前郵件特征信息表中的特征與垃圾郵件過濾信息數據庫中最相似的郵件,并按照郵件相似性決策函數的要求,計算這兩封郵件的相似程度,其中Mail1和Mail2表示兩封進行相似性對比的郵件文本,和分別表示兩封郵件相同的特征數量和所有特征數量,λ表示導入的權值,i表示特征序號;如果計算結果小于預先用戶設定的某一閾值,則判斷當前兩封郵件是相似的,確定為垃圾郵件,并紀錄該垃圾郵件的特征重復出現次數;否則,將當前的郵件作為正常郵件,并把該郵件的特征信息增加到垃圾郵件過濾信息數據庫中,所述的一般取0.2~0.8;
S7、判斷郵件是否處理結束:
判斷郵件是否處理結束,如果是,則處理結束;如果否,則轉回步驟S3繼續處理下一封電子郵件,直至所有的電子郵件都過濾完成。
3.根據權利要求2所述的快速高準確率的垃圾郵件過濾方法,其特征在于:所述的步驟S2、郵件預處理包括以下主要內容:
S2.1、郵件數據格式識別:
對每一個的郵件數據格式進行分析識別;
S2.2、去除郵件頭,形成郵件文本信息:
去除郵件頭,將剩余的全部信息轉換為文本格式的郵件信息;
S2.3、判斷郵件文本信息是否大于30KB:
如果郵件文本信息即郵件粒度大于30KB,則按“段”粒度對郵件特征進行提取及處理,即轉入步驟S2.4;如果郵件粒度小于或等于30KB,則按“句”粒度對郵件特征進行提取及處理,即轉入步驟S2.5;
S2.4、識別郵件中的所有的回車符,將郵件文本信息劃分為多個段,再以段為單位對郵件進行特征提取,轉入步驟S2.7;
S2.5、排除郵件中易導致誤分離的分隔符:
排除英文字符串中的點號,避免文本中字符串自帶的點號導致誤分離;
S2.6、以剩余的分隔符對郵件文本進行分句:
識別郵件中所有剩余的分隔符,并用該分隔符對郵件文本信息劃分為多個完整的句子,再以句為單位對郵件進行特征提取,轉入步驟S2.7;
S2.7、輸出粒度劃分后的郵件文本信息。
4.根據權利要求3所述的快速高準確率的垃圾郵件過濾方法,其特征在于:所述步驟S2.5、排除郵件中易導致誤分離的分隔符中,其體的排除方法是:采用白名單加特定規則,所述的白名單是將常用的一些帶有點號的字符串作為白名單加入在數據庫中,對郵件文本掃描發現白名單中存在的紀錄,則不予劃分粒度,該白名單數據庫可增加;所述的特定規則是:凡是一個大寫字母后面跟隨的點號,不予劃分粒度,該特定規則可以避免對英文中的姓氏進行粒度劃分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于柳州職業技術學院,未經柳州職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110096774.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:非水電解質二次電池
- 下一篇:二次電池和包括該二次電池的電池模塊





