[發明專利]一種基于聚類的垃圾郵件過濾系統及方法有效
| 申請號: | 201310476384.X | 申請日: | 2013-10-12 |
| 公開(公告)號: | CN103559175A | 公開(公告)日: | 2014-02-05 |
| 發明(設計)人: | 董守斌;許騰;張晶;張凌;隆承志 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;H04L29/06;H04L12/58 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 蔡茂略 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 垃圾郵件 過濾 系統 方法 | ||
技術領域
本發明涉及垃圾郵件過濾技術領域,特別涉及一種基于聚類的垃圾郵件過濾系統及方法。
背景技術
隨著電子郵件的普及,垃圾郵件制造者通過非常廉價的手段將大量的垃圾郵件發向網絡中,嚴重影響著網絡的帶寬,干擾用戶的正常使用并對用戶安全造成潛在威脅。
目前基于機器學習的郵件過濾系統,多只按照特定的學習算法,對訓練郵件集進行單一的訓練學習后,依據學習算法建模生成的特征庫對新郵件進行判別。這種不加區別的對訓練數據進行統一訓練,作為機器學習算法在郵件過濾領域普遍采用的方式,雖然能給過濾器提供較好的學習能力,但由于沒有對訓練數據進行差異化對待,在過濾器的學習和判別能力上都會有所影響。
發明內容
本發明的目的之一在于克服現有技術的缺點和不足,提供一種基于聚類的垃圾郵件過濾系統,該系統基于機器學習算法,通過引入聚類分析有差別的對待訓練數據,填補現有技術中過濾器在訓練環節對訓練數據統一訓練和在判別環節簡單依靠訓練生成的唯一特征庫進行判別的不足。
本發明的目的之二在于提供一種基于聚類的垃圾郵件過濾方法,該方法通過對訓練郵件進行學習,建模形成特征庫后對新郵件進行判別,給出是否為垃圾郵件的結果,具有判別速度快、準確度高的優點。
為了達到上述第一目的,本發明采用以下技術方案:
一種基于聚類的垃圾郵件過濾系統,包括:
聚類模塊,用于對訓練郵件的文本內容進行分析,將郵件依據主題相似性劃分成不同的簇類,同一個簇中的郵件具有一個或多個主題的相似性;
郵件訓練模塊,用于對已標注的郵件進行訓練學習,更新特征知識庫;
特征庫存儲模塊,用于存儲各類簇所對應的各特征數據;
郵件過濾模塊,用于對新到郵件進行過濾,依據特征庫給出該封郵件是否為垃圾郵件的判別結果。
所述聚類模塊包括:
聚類預處理模塊,用于將要進行聚類分析的訓練郵件及未標注郵件進行郵件解碼,特征提取后表示成VSM向量形式,作為聚類分析模塊的輸入;
聚類分析模塊,用于根據聚類算法對輸入數據進行聚類,劃分出K個不同的類簇,輸出各郵件所屬的類別標記;
類簇中心計算模塊,用于計算每個類簇的中心,利用向量空間模型表示該類簇的內容特征。
所述郵件訓練模塊包括:
類屬性判別模塊,用于給出與郵件內容最相近的類簇,提供給判別模塊;
特征提取模塊,用于對郵件進行特征提取,提供給判別模塊進行分析;
數據更新模塊,根據訓練郵件的特征更新特征庫的數據。
所述郵件過濾模塊包括:
類屬性判別模塊,用于給出與郵件內容最相近的類簇,提供給判別模塊;
特征提取模塊,用于對郵件進行特征提取,提供給判別模塊進行分析;
判別模塊,根據類屬性判別模塊得出的類簇編號,依據該類簇對應的特征庫,用特定的機器學習算法依據該郵件的特征給出是否為垃圾郵件的判別結果。
為了達到上述第二目的,本發明采用以下技術方案:
基于聚類的垃圾郵件過濾系統的方法,分為訓練階段、過濾階段兩個環節,具體包括以下步驟:
S1、訓練階段:
步驟S1.1、若本系統在進行初始化時,獲取郵件備份系統的訓練郵件及未標注郵件,進入步驟S1.2;若已通過初始化,針對用戶反饋的郵件或人工標識的郵件進行實時訓練,跳至步驟S1.5;
步驟S1.2、聚類模塊中的聚類預處理模塊對要進行聚類分析的訓練郵件及未標注郵件進行郵件解碼,提取文本特征后表示成VSM向量形式,發送給聚類分析模塊,進入步驟S1.3;
步驟S1.3、聚類模塊中的聚類分析模塊,根據分裂式層次聚類算法對輸入數據進行聚類,劃分出K個不同的類簇,輸出各郵件所屬的類別編號,進入步驟S1.4;
步驟S1.4、聚類模塊中的類簇中心計算模塊計算每個類簇的中心,利用向量空間模型表示該類簇的內容特征,跳至步驟S1.6;
步驟S1.5、郵件訓練模塊中的類屬性判別模塊通過分析郵件正文內容,給出與該郵件文本內容最接近的類簇編號,進入到步驟S1.6;
步驟S1.6、郵件訓練模塊中的特征提取模塊對訓練郵件進行特征提取,提取出有效特征并用VSM向量形式表示,傳遞給郵件判別模塊,進入到步驟S1.7;
步驟S1.7、郵件訓練模塊中的數據更新模塊根據訓練郵件的特征,采用貝葉斯算法進行訓練學習,更新該郵件所對應類簇的特征庫;
S2、過濾階段:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310476384.X/2.html,轉載請聲明來源鉆瓜專利網。





