[發明專利]基于半監督的垃圾圖片過濾方法有效
| 申請號: | 201210129234.7 | 申請日: | 2012-04-28 |
| 公開(公告)號: | CN102663435A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 張衛豐;胡文婷;張迎周;周國強;王慕妮;錢小燕;許碧歡;陸柳敏 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 葉連生 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 垃圾 圖片 過濾 方法 | ||
技術領域
本發明是一種通過半監督學習方法,利用已標簽圖片樣例,來訓練支持向量機算法模型,對圖像型垃圾郵件進行檢測的實現方案,主要解決了當今的技術對圖像型垃圾郵件檢測效率和召回率低等問題,屬于數據挖掘和機器學習領域。
背景技術
文本型垃圾郵件過濾技術的不斷提高,驅使著垃圾郵件制造者們探索新的垃圾郵件制作技術。于是,圖像型垃圾郵件便成為了當今盛行的垃圾信息傳播媒介。根據McAfee在2007年的報告,圖像型垃圾郵件在所有垃圾郵件中所占的比例大約是30%。圖像型垃圾郵件是將廣告等垃圾信息以文本的形式嵌入到圖片中,作為電子郵件的附件或者直接作為其正文內容,肆意地傳播給電子郵件客戶端。
Battista?Biggio等人在2007年提出了一種通過計算圖像周長復雜度的方法[5]來判別圖片是否經過了模糊技術的處理。圖像的復雜度可以由周長復雜度來衡量的,計算公式為P2/A(P指的是文字區域的周長,A指的是文字區域的面積)。計算灰度圖像的每個對象的周長復雜度可以標識斷字符或者是噪音對象的出現,也就可以判斷出圖像是自然生成的還是人工處理過的。然而由于不能證實經過模糊處理的圖像就是攜帶垃圾信息的圖像,這種處理技術只能作為垃圾郵件過濾系統中預處理某個模塊。Ngo?Phuong?Nhung與Tu?Minh?Phuong提出了通過挖掘圖片的邊緣特征的方法[6],最后使用支持向量機作為分類工具。該方法是通過比較從Email中提取出的圖片與樣本圖片的邊緣特征,然后使用支持向量機將這些特征向量分類。使用邊緣特征來檢測圖像Spam能夠獲取80%的準確率,這類分類算法的優點在于使用邊緣特征能夠獲取文本密集的形狀規律性而且計算量不大,而存在的不足之處在于對于模版上文字字體的改變的反應比較遲鈍。
Klangpraphant,?P.等人在2010年提出的方法特征是基于圖像內容的信息檢索。從網絡中收到郵件之后,將郵件分成圖像型和關鍵字型郵件。關鍵字型郵件就直接以5*5矩陣的形式呈現給用戶;而圖像型郵件則進行特征比較。首先,建立一個垃圾圖像的特征集,再將圖像郵件的特征跟之比較,相似度高達3/4以上的就可歸為垃圾圖像;否則就進行下一步比較。比較結果的差別率在10%以下歸為垃圾圖像;相反,差別率在10%以上就將圖像以5*5矩陣的形式呈獻給用戶。
2010年Yan?Gao提出了分別從服務器端與客戶端進行圖像型垃圾郵件過濾。服務器端利用基于非負稀疏矩陣的相似性檢測。該檢測方法是基于一個基本假設:集合中的任何數據樣本或者特征向量可以由同一個聚類中的一小組樣本的非負線性組合來表示。但是事先并不知道一個樣本屬于哪個聚類,所以提出通過求一個最優化問題得到非負線性組合的系數矩陣,處理后得到相似性矩陣,從而成功識別出該樣本所在聚類,完成相似性檢測過程??蛻舳耸抢脙煞N主動學習方法,分別是基于支持向量機的和基于高斯分布的主動學習分類器。主動學習的主要思想是使用標簽好的訓練集來訓練基于主動學習的分類器,然后使用該分類器對未標簽的數據集進行分類,根據分類器的最高的分類結果來判斷未標簽的數據集是否需要標簽,繼而更新標簽集合與未標簽集合。
本文提出通過在線學習來訓練支持向量機的算法,以得到一個高精確度且穩定的分類器。由于獲取已標簽的樣本需要耗費大量的人力、物力,而獲取未標簽的樣本則相對容易的多。所以,我們需要做的工作是從未標簽的樣本中提取含信息量豐富的樣本點,加入并更新訓練集合。從而利用不斷更新的訓練集來訓練支持向量機,直到其分類精確度趨于穩定,得到高精確的分類結果。
[1]?Battista?Biggio,Giorgio?Fumera,Ignazio?Pillai,Fabio?Ro??Image?spam?filtering?by?content?obscuring?detection??Fourth?Conference?on?Email?and?Anti-Spam,?August?2-3,?2007
[2]?Pattarapom?Klangpraphant?.detect?image?spam?with?content?base?information?retrieval.?978-1-4244-5540-9/10/$26.00??2010?IEEE
[3]?Yan?Gao,?Alok?Choudhary?.?Sparsity?induced?similaritymeasure?for?label?propagation.?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210129234.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:同步發電機-極組
- 下一篇:無線供電裝置及其控制方法





