[發(fā)明專利]一種基于聚類的垃圾郵件過濾系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201310476384.X | 申請日: | 2013-10-12 |
| 公開(公告)號: | CN103559175A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 董守斌;許騰;張晶;張凌;隆承志 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;H04L29/06;H04L12/58 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 蔡茂略 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 垃圾郵件 過濾 系統(tǒng) 方法 | ||
1.一種基于聚類的垃圾郵件過濾系統(tǒng),其特征在于,包括:
聚類模塊,用于對訓(xùn)練郵件的文本內(nèi)容進(jìn)行分析,將郵件依據(jù)主題相似性劃分成不同的簇類,同一個簇中的郵件具有一個或多個主題的相似性;
郵件訓(xùn)練模塊,用于對已標(biāo)注的郵件進(jìn)行訓(xùn)練學(xué)習(xí),更新特征知識庫;
特征庫存儲模塊,用于存儲各類簇所對應(yīng)的各特征數(shù)據(jù);
郵件過濾模塊,用于對新到郵件進(jìn)行過濾,依據(jù)特征庫給出該封郵件是否為垃圾郵件的判別結(jié)果。
2.根據(jù)權(quán)利要1所述的基于聚類的垃圾郵件過濾系統(tǒng),其特征在于,聚類模塊包括:
聚類預(yù)處理模塊,用于將要進(jìn)行聚類分析的訓(xùn)練郵件及未標(biāo)注郵件進(jìn)行郵件解碼,特征提取后表示成VSM向量形式,作為聚類分析模塊的輸入;
聚類分析模塊,用于根據(jù)聚類算法對輸入數(shù)據(jù)進(jìn)行聚類,劃分出K個不同的類簇,輸出各郵件所屬的類別標(biāo)記;
類簇中心計(jì)算模塊,用于計(jì)算每個類簇的中心,利用向量空間模型表示該類簇的內(nèi)容特征。
3.根據(jù)權(quán)利要1所述的基于聚類的垃圾郵件過濾系統(tǒng),其特征在于,所述郵件訓(xùn)練模塊包括:
類屬性判別模塊,用于給出與郵件內(nèi)容最相近的類簇,提供給判別模塊;
特征提取模塊,用于對郵件進(jìn)行特征提取,提供給判別模塊進(jìn)行分析;
數(shù)據(jù)更新模塊,根據(jù)訓(xùn)練郵件的特征更新特征庫的數(shù)據(jù)。
4.根據(jù)權(quán)利要1所述的基于聚類的垃圾郵件過濾系統(tǒng),其特征在于,所述郵件過濾模塊包括:
類屬性判別模塊,用于給出與郵件內(nèi)容最相近的類簇,提供給判別模塊;
特征提取模塊,用于對郵件進(jìn)行特征提取,提供給判別模塊進(jìn)行分析;
判別模塊,根據(jù)類屬性判別模塊得出的類簇編號,依據(jù)該類簇對應(yīng)的特征庫,用特定的機(jī)器學(xué)習(xí)算法依據(jù)該郵件的特征給出是否為垃圾郵件的判別結(jié)果。
5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述基于聚類的垃圾郵件過濾系統(tǒng)的方法,其特征在于,分為訓(xùn)練階段、過濾階段兩個環(huán)節(jié),具體包括以下步驟:
S1、訓(xùn)練階段:
步驟S1.1、若本系統(tǒng)在進(jìn)行初始化時(shí),獲取郵件備份系統(tǒng)的訓(xùn)練郵件及未標(biāo)注郵件,進(jìn)入步驟S1.2;若已通過初始化,針對用戶反饋的郵件或人工標(biāo)識的郵件進(jìn)行實(shí)時(shí)訓(xùn)練,跳至步驟S1.5;
步驟S1.2、聚類模塊中的聚類預(yù)處理模塊對要進(jìn)行聚類分析的訓(xùn)練郵件及未標(biāo)注郵件進(jìn)行郵件解碼,提取文本特征后表示成VSM向量形式,發(fā)送給聚類分析模塊,進(jìn)入步驟S1.3;
步驟S1.3、聚類模塊中的聚類分析模塊,根據(jù)分裂式層次聚類算法對輸入數(shù)據(jù)進(jìn)行聚類,劃分出K個不同的類簇,輸出各郵件所屬的類別編號,進(jìn)入步驟S1.4;
步驟S1.4、聚類模塊中的類簇中心計(jì)算模塊計(jì)算每個類簇的中心,利用向量空間模型表示該類簇的內(nèi)容特征,跳至步驟S1.6;
步驟S1.5、郵件訓(xùn)練模塊中的類屬性判別模塊通過分析郵件正文內(nèi)容,給出與該郵件文本內(nèi)容最接近的類簇編號,進(jìn)入到步驟S1.6;
步驟S1.6、郵件訓(xùn)練模塊中的特征提取模塊對訓(xùn)練郵件進(jìn)行特征提取,提取出有效特征并用VSM向量形式表示,傳遞給郵件判別模塊,進(jìn)入到步驟S1.7;
步驟S1.7、郵件訓(xùn)練模塊中的數(shù)據(jù)更新模塊根據(jù)訓(xùn)練郵件的特征,采用貝葉斯算法進(jìn)行訓(xùn)練學(xué)習(xí),更新該郵件所對應(yīng)類簇的特征庫;
S2、過濾階段:
步驟S2.1、在過濾階段,郵件系統(tǒng)獲取一封新郵件,傳遞給郵件過濾模塊中的類屬性判別模塊,進(jìn)入步驟S2.2;
步驟S2.2、郵件過濾模塊中的類屬性判別模塊通過分析郵件正文內(nèi)容,給出與郵件文本內(nèi)容最相似的類簇編號,進(jìn)入到步驟S2.3;
步驟S2.3、郵件過濾模塊中的特征提取模塊對郵件進(jìn)行特征提取,提取出有效特征用VSM向量形式表示,傳遞給郵件過濾模塊中的判別模塊,進(jìn)入到步驟S2.4;
步驟S2.4、郵件過濾模塊中的判別模塊依據(jù)步驟S2.2中給出的最相近的類簇所對應(yīng)的特征庫,采用貝葉斯算法去計(jì)算分析步驟S2.3中得到的郵件特征,給出該封郵件是否為垃圾郵件的判別結(jié)果;
步驟S2.5、郵件判別模塊通過郵件的向量特征和該郵件所屬類簇對應(yīng)的特征庫計(jì)算該封郵件的得分score,若score值大于或等于預(yù)設(shè)的判斷閾值,則將該封郵件打上spam標(biāo)記,輸出結(jié)果;若score值小于判斷閾值,則將該封郵件打上ham標(biāo)記,輸出結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310476384.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





