[發明專利]一種垃圾郵件過濾方法有效
| 申請號: | 201110450352.3 | 申請日: | 2011-12-29 |
| 公開(公告)號: | CN103186845A | 公開(公告)日: | 2013-07-03 |
| 發明(設計)人: | 林延中;潘慶峰 | 申請(專利權)人: | 盈世信息科技(北京)有限公司 |
| 主分類號: | G06Q10/10 | 分類號: | G06Q10/10;G06F17/27;H04L12/58 |
| 代理公司: | 廣州三環專利代理有限公司 44202 | 代理人: | 顏希文 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垃圾郵件 過濾 方法 | ||
1.一種垃圾郵件過濾方法,其特征在于,包括:
S11、從待過濾郵件中提取中文字符,組合成中文文本,并采用排列組合方式從所述中文文本中分離出詞語;
S12、通過統計已知分類的郵件樣本,獲得所述中文文本中每一個詞語在正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表、訂閱郵件分詞列表中所屬的重要性位置區間編號;
S13、統計每個重要性位置區間編號上分布的詞語的個數,并轉換成一維數組,獲得所述中文文本的特征向量;
S14、將所述特征向量輸入支持向量機模型,獲得所述待過濾郵件分別為正常郵件、垃圾郵件、廣告郵件、訂閱郵件的概率。
2.如權利要求1所述的垃圾郵件過濾方法,其特征在于,在步驟S11中,采用排列組合方式從所述中文文本中分離出詞語的方法,具體包括:
掃描所述中文文本中的每一個中文文字,以S個中文字符為步長將每一個中文文字后面的文字逐個提取出來,組成文字組合,獲得詞語;其中,S為自然數。
3.如權利要求2所述的垃圾郵件過濾方法,其特征在于,步驟S12具體包括:
收集已知分類的郵件樣本,所述郵件樣本包括正常郵件樣本、垃圾郵件樣本、廣告郵件樣本和訂閱郵件樣本;
從所述郵件樣本中提取分詞樣本,對每一個分詞樣本的區分郵件類型的能力進行排序,形成正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表和訂閱郵件分詞列表四個郵件類型的分詞列表;每個郵件類型的分詞列表記錄了每個分詞樣本在本郵件類型中的重要性位置區間編號,所述重要性位置區間編號表示分詞樣本在某類郵件樣本中的重要性;
將所述正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表、訂閱郵件列表中的分詞樣本及其重要性位置編號記錄到數據庫中;
從所述待過濾郵件的中文文本中分離出詞語后,根據數據庫中記錄的每個分詞樣本在不同郵件類型中的重要性位置區間編號,來確定所述中文文本中每一個詞語在正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表、訂閱郵件分詞列表中所屬的重要性位置區間編號。
4.如權利要求3所述的垃圾郵件過濾方法,其特征在于,步驟S13具體包括:
構建一個四維數組,四維數組的第一行記錄所述正常郵件分詞列表的每個重要性位置區間編號上所分布的詞語個數;四維數組的第二行記錄所述垃圾郵件分詞列表的每個重要性位置區間編號上所分布的詞語個數;四維數組的第三行記錄所述廣告郵件分詞列表的每個重要性位置區間編號上所分布的詞語個數;四維數組的第四行記錄所述訂閱常郵件分詞列表的每個重要性位置區間編號上所分布的詞語個數;所述詞語是從所述待過濾郵件的中文文本中分離出的詞語;
按照先行后列的方式將所述四維數組轉換成一維數組,獲得所述中文文本的特征向量。
5.如權利要求4所述的垃圾郵件過濾方法,其特征在于,在步驟S14之后,還包括:
S15、判斷所述中文文本為垃圾郵件的概率是否大于設定的第一閥值,若是,則判定所述待過濾郵件為垃圾郵件,否則不是垃圾郵件。
6.如權利要求1~4任一項所述的垃圾郵件過濾方法,其特征在于,所述垃圾郵件過濾方法還包括:?
S21、從待過濾郵件中提取英文字符,組合成英文文本,且以標點符號和空格分隔每個分詞,從所述英文文本中分離出詞語;
S22、通過統計已知分類的郵件樣本,獲得所述英文文本中每一個詞語在正常郵件分詞列表、垃圾郵件分詞列表、廣告郵件分詞列表、訂閱郵件分詞列表中所屬的重要性位置區間編號;
S23、統計每個重要性位置區間編號上分布的詞語的個數,并轉換成一維數組,獲得所述英文文本的特征向量;
S24、將所述英文文本的特征向量輸入支持向量機模型,獲得所述英文文本分別為正常郵件、垃圾郵件、廣告郵件、訂閱郵件的概率。
7.如權利要求6所述的垃圾郵件過濾方法,其特征在于,在步驟S24之后,還包括:
S25、判斷所述中文文本為垃圾郵件的概率是否大于設定的第一閥值;若是,則判定所述待過濾郵件為垃圾郵件;若否,則執行S26;
S26、判斷所述英文文本為垃圾郵件的概率是否大于設定的第二閥值;若是,則判定所述待過濾郵件為垃圾郵件;否則判定所述待過濾郵件不是垃圾郵件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盈世信息科技(北京)有限公司,未經盈世信息科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110450352.3/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





