[發明專利]一種垃圾郵件過濾方法有效
| 申請號: | 201110450352.3 | 申請日: | 2011-12-29 |
| 公開(公告)號: | CN103186845A | 公開(公告)日: | 2013-07-03 |
| 發明(設計)人: | 林延中;潘慶峰 | 申請(專利權)人: | 盈世信息科技(北京)有限公司 |
| 主分類號: | G06Q10/10 | 分類號: | G06Q10/10;G06F17/27;H04L12/58 |
| 代理公司: | 廣州三環專利代理有限公司 44202 | 代理人: | 顏希文 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垃圾郵件 過濾 方法 | ||
技術領域
本發明涉及通信技術領域,尤其涉及一種垃圾郵件過濾方法。
背景技術
隨著網絡的快速發展,使用電子郵件(E-mail)進行通信已十分普遍,圖片、文檔、影音等各種計算機文件均可通過E-mail的方式傳送給接收者,給人們的生活帶來了極大的方便。但同時垃圾郵件也隨之蔓延,嚴重威脅到用戶郵箱的穩定性及安全性。
中國專利CN201010179995公開一種基于N-GRAM分詞模型的反向神經網絡垃圾郵件過濾裝置,使用N-GRAM分詞模型對郵件樣本進行分詞,并使用TF-IDF(Term?Frequency–Inverse?Document?Frequency)算法對分詞進行權重排序,然后使用zipf法則提取最重要的特征分詞列表(未被挑中的特征分詞則被丟棄)。根據文本中是否包含這些“重要特征分詞”構造出文檔的特征向量,并以此特征向量進行神經網絡的學習和分類,最后輸出正常郵件和垃圾郵件兩個類別的分類結果。
上述現有技術使用zipf法則來提取最重要的特征分詞,會導致某些次重要的特征分詞被丟棄,但是這些次重要的特征分詞數量較多,總體仍會對分類系統有相當大的貢獻。因此,丟棄這些次重要分詞,會影響分類器的準確性。而且,在實際應用中,存在部分灰色地帶的郵件,比如某些信用卡的積分廣告郵件,對于某些用戶來說是希望接收的,但是上述現有技術只有垃圾郵件和正常郵件兩個分類結果,由于這些灰色地帶的郵件是大量群發的,因此分類器會將其歸類到垃圾郵件內;此外,上述現有技術使用神經網絡對特征向量進行分類,只能獲得一個郵件屬于垃圾郵件還是正常郵件的分類結果,不能獲得分類結果的置信度;而且沒有考慮當前大量的垃圾郵件使用html方式包裝,并通過添加大量不可見或者不同大小的字體,來干擾文本分類的效果,影響分類器的準確性。
發明內容
本發明實施例提出一種垃圾郵件過濾方法,郵件分類準確,能夠提高垃圾郵件的識別準確率。
本發明實施例提供的垃圾郵件過濾方法,包括:
S11、從待過濾郵件中提取中文字符,組合成中文文本,并采用排列組合方式從所述中文文本中分離出詞語;
S12、通過統計已知分類的郵件樣本,獲得所述中文文本中每一個詞語在正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表、訂閱郵件分詞列表中所屬的重要性位置區間編號;
S13、統計每個重要性位置區間編號上分布的詞語的個數,并轉換成一維數組,獲得所述中文文本的特征向量;
S14、將所述特征向量輸入支持向量機模型,獲得所述待過濾郵件分別為正常郵件、垃圾郵件、廣告郵件、訂閱郵件的概率。
在步驟S11中,采用排列組合方式從所述中文文本中分離出詞語的方法,具體包括:掃描所述中文文本中的每一個中文文字,以S個中文字符為步長將每一個中文文字后面的文字逐個提取出來,組成文字組合,獲得詞語;其中,S為自然數。
步驟S12具體包括:
收集已知分類的郵件樣本,所述郵件樣本包括正常郵件樣本、垃圾郵件樣本、廣告郵件樣本和訂閱郵件樣本;
從所述郵件樣本中提取分詞樣本,對每一個分詞樣本的區分郵件類型的能力進行排序,形成正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表和訂閱郵件分詞列表四個郵件類型的分詞列表;每個郵件類型的分詞列表記錄了每個分詞樣本在本郵件類型中的重要性位置區間編號,所述重要性位置區間編號表示分詞樣本在某類郵件樣本中的重要性;
將所述正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表、訂閱郵件列表中的分詞樣本及其重要性位置編號記錄到數據庫中;
從所述待過濾郵件的中文文本中分離出詞語后,根據數據庫中記錄的每個分詞樣本在不同郵件類型中的重要性位置區間編號,來確定所述中文文本中每一個詞語在正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表、訂閱郵件分詞列表中所屬的重要性位置區間編號。
進一步的,在步驟S14之后,還包括:
S15、判斷所述中文文本為垃圾郵件的概率是否大于設定的第一閥值,若是,則判定所述待過濾郵件為垃圾郵件,否則不是垃圾郵件。
本發明實施例提供的垃圾郵件過濾方法,從待過濾郵件中提取出中文字符,組合成中文文本,并采用排列組合方式從所述中文文本中分離出詞語,不依賴于中文字典,而是通過排列組合窮舉所有可能的分詞形式,然后通過統計來確認哪些分詞比較重要,不會丟棄次重要的特征分詞,將分類結果分成垃圾郵件、正常郵件、廣告郵件和訂閱郵件四個類型,郵件分類準確。而且使用支持向量機作為特征向量的分類器,能夠提高垃圾郵件的識別準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盈世信息科技(北京)有限公司,未經盈世信息科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110450352.3/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





