[發明專利]一種基于協同訓練的垃圾郵件過濾方法和裝置有效
| 申請號: | 201110369697.6 | 申請日: | 2011-11-18 |
| 公開(公告)號: | CN102404249A | 公開(公告)日: | 2012-04-04 |
| 發明(設計)人: | 徐燕;邱泳欽;李丹;周美林 | 申請(專利權)人: | 北京語言大學 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06F17/30 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 任默聞 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 協同 訓練 垃圾郵件 過濾 方法 裝置 | ||
1.一種基于協同訓練的垃圾郵件過濾方法,其特征在于,所述方法包括:
輸入待過濾的郵件集合,所述郵件集合包括已標注郵件和未標注郵件;
根據所述郵件集合得到每個樣本的特征向量,其中一個樣本對應一封郵件;
將所述每個樣本的特征向量劃分為第一特征向量子集和第二特征向量子集,所述第一特征向量子集中的特征來源于郵件頭信息,所述第二特征向量子集中的特征來源于郵件內容信息;
將所述第一特征向量子集和第二特征向量子集分別作為所述每個樣本的第一視角和第二視角;
利用所述第一視角和第二視角進行基于貝葉斯分類器的協同訓練得到最終的第一分類器和第二分類器;
根據所述第一分類器和所述第二分類器對垃圾郵件進行分類過濾。
2.如權利要求1所述的基于協同訓練的垃圾郵件過濾方法,其特征在于,根據所述郵件集合得到每個樣本的特征向量包括:
利用特征選擇技術對已標注郵件的每個樣本的郵件內容信息進行處理得到基于郵件內容的若干特征;
根據已標注郵件的每個樣本的郵件頭信息得到基于郵件頭的若干特征;
根據所述基于郵件內容的特征以及基于郵件頭的特征對郵件進行向量化以每個樣本的特征向量。
3.如權利要求2所述的基于協同訓練的垃圾郵件過濾方法,其特征在于,所述根據每個樣本的郵件頭信息得到基于郵件頭的若干特征包括:
對郵件頭中各個字段進行特征信息提??;
根據提取的特征信息得到時區、時間、IP地址的特征,以及IP地址與計算機名及域名的匹配特征,以及發件人地址格式特征。
4.如權利要求1所述的基于協同訓練的垃圾郵件過濾方法,其特征在于,所述利用所述第一視角和第二視角進行基于貝葉斯分類器的協同訓練得到最終的第一分類器和第二分類器包括如下步驟:
步驟1、從所有未標注郵件中選取z個郵件構成協同訓練所使用的未標注郵件樣本集合U;
步驟2、從所述未標注郵件樣本集合U中隨機挑出n個未標注的樣本,構成待標注樣本集合Vi,余下的z-n個未標注郵件樣本構成候選樣本集合Hi,并將所有的已標注的樣本組成已標注樣本集合Li,其中,i表示迭代的次數,初始化為i=1;
步驟3、利用所述已標注樣本集合Li中每一個樣本的第一視角,采用貝斯方法構造貝葉斯分類器h1i;
步驟4、利用分類器h1i對待標注的樣本集合Vi中待標注樣本的第一視角進行標注,得到所有的待標注樣本的類別標記及其隸屬于此類別的置信度,并從該類別標記中選出m個隸屬于垃圾郵件和非垃圾郵件的置信度最大的類別標記,將該類置信度最大的類別標記連同其相對的m個待標注樣本,加入到有標注樣本集合Li中,得到更新的已標注的樣本集合Li′,并將上述m個待標注的樣本從待標注樣本集合Vi中刪除,得到更新的待標注樣本集合Vi′;
步驟5、利用更新的已標注的樣本Li′中每個樣本的第二視角,采用貝葉斯方法構造貝葉斯分類器h2i;
步驟6、利用利用貝葉斯分類器h2i對更新的待標注郵件樣本集合Vi′中待標注樣本的第二視角進行標注,得到所有的待標記樣本的類別標記及其隸屬于此類別的置信度,從該類別標記中選出m個隸屬于每一個類別置信度最大的標記,將該每一個類置信度最大的類別標記連同其對應的m個待標注樣本,加入到上述更新的已標記樣本集合Li′中,得到已標記樣本集合Li+1,并將上述m個待標注的樣本從更新的待標注樣本集合Vi′中刪除,得到二次更新的待標注樣本集合Vi″;
步驟7、從候選樣本集合Hi中選取p個樣本,加入到二次更新的待標注樣本集合Vi″中,得到待標注樣本集合Vi+1,并將這p個樣本從候選樣本集合Hi中刪除,得到候選樣本集合Hi+1,其中,p≥2m;
步驟8、更新變量,i=i+1;
步驟9、判斷候選樣本集合Hi是否為空集,如果為空集則結束迭代,將此時的兩個貝葉斯分類器分別記為最終的第一分類器h1k和第二分類器h2k,其中,k為迭代結束時i的值,如果Hi不為空集,則返回步驟3。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京語言大學,未經北京語言大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110369697.6/1.html,轉載請聲明來源鉆瓜專利網。





