[發(fā)明專利]一種基于視覺特征的圖像垃圾郵件過濾方法無效
| 申請?zhí)枺?/td> | 200910083392.1 | 申請日: | 2009-05-06 |
| 公開(公告)號: | CN101540682A | 公開(公告)日: | 2009-09-23 |
| 發(fā)明(設計)人: | 溫向明;何培舟;孫勇;鄭偉;林新棋 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | H04L9/36 | 分類號: | H04L9/36;H04L29/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺 特征 圖像 垃圾郵件 過濾 方法 | ||
技術領域
本發(fā)明涉及電子郵件領域,尤其是涉及一種基于視覺特征的圖像垃圾郵件過濾方法。
背景技術
電子郵件由于低廉的價格、便捷的傳輸方式,自產生之日起就一直受到廣大網(wǎng)民青睞,也逐漸受到政府官員的青睞,2009年2月,美國總統(tǒng)奧巴馬向1300萬支持者群發(fā)電子郵件求助[1]。這使得電子郵件迅速成為垃圾信息滋生的溫床,造成垃圾郵件泛濫。中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告》顯示,2004年1月中國網(wǎng)民平均每周收到垃圾郵件7.9封,但2009年1月中國網(wǎng)民平均每周收到的垃圾郵件數(shù)量達到17.55封,垃圾郵件隨著網(wǎng)民數(shù)量的增加而不斷增長。用戶收到的垃圾郵件正式格式主要有三種,圖片加文本格式,純文本格式和純圖片格式。其中只有近三成是純文本格式,這也說明圖像垃圾郵件所占比例接近70%。由于目前計算機視覺技術無法攻克CAPTCHA,這也使得圖像垃圾郵件附帶的圖像越來越像CAPTCHA。
圖像垃圾郵件是指包含有圖像信息的垃圾郵件,圖像可以包含在正文、附件或托管于其他網(wǎng)站,在正文中顯示。純文本的垃圾郵件大小一般小于5KB,圖像垃圾郵件則會大的多,從1KB到幾MB不等,大多在1K到70K。
圖像垃圾郵件可以輕松繞過傳統(tǒng)的文本過濾器。為了逃避反垃圾郵件設備的掃描,對垃圾郵件制造者來說,圖像垃圾郵件可以輕松逃避掃描郵件正文的反垃圾郵件技術,漂亮的圖像能傳遞更為豐富、專業(yè)的信息,豐富的圖像技術可以迅速制造出不同的圖像垃圾郵件。
目前,圖像垃圾郵件過濾方面的成果并不多,主要可以分為以下三類:
(1)傳統(tǒng)過濾技術
雖然圖像垃圾郵件出現(xiàn)的目的是為了繞開傳統(tǒng)過濾器的掃描,但是傳統(tǒng)過濾技術(如蜜罐)仍然可以截獲少量圖像垃圾郵件。
(2)基于OCR的過濾技術
OCR是英文Optical?Character?Recognition(稱光學字符識別)的縮寫,其目的是解決文字信息的高效、自動輸入到計算機的問題。OCR是自動模式識別領域最成功的技術,OCR可以識別內容清晰的圖像垃圾郵件,無法識別內容模糊的圖像垃圾郵件。OCR技術的不足是計算代價大。
(3)基于文字區(qū)域特征的過濾技術
與使用OCR技術不同,基于文字特征的過濾技術直接利用文字區(qū)域特征進行圖像垃圾郵件過濾,特征主要來源于兩個方面,一方面來源于郵件正文,另一方面來源于郵件圖像。基于文字區(qū)域特征的優(yōu)點是不需用使用昂貴的OCR技術,不足是計算代價過大。
發(fā)明內容
有鑒于此,本發(fā)明的目的是提供一種圖像垃圾郵件的過濾方法和裝置,利用文件屬性特征以及圖像的視覺特征(顏色特征、紋理特征和形狀特征),以便郵件服務提供商能夠及時發(fā)現(xiàn)圖像垃圾郵件,并采取相應措施對像垃圾郵件進行處理,以凈化計算機網(wǎng)絡環(huán)境和保證互聯(lián)網(wǎng)的安全、暢通。
本發(fā)明既能應用于電子郵件服務器,也能應用于電子郵件客戶端。利用文件屬性特征和視覺特征,實現(xiàn)圖像垃圾郵件的過濾,以達到防范圖像垃圾郵件的目的。
為了實現(xiàn)上述目的,采取的技術方案是:
圖像垃圾郵件的判決規(guī)則如下:
(1)如果圖像垃圾郵件所含圖像為垃圾圖像,那么就判定待測圖像郵件為圖像垃圾郵件;反之,如果為合法圖像,那么就判定待測圖像郵件為圖像合法郵件。
(2)如果使用了黑白名單技術,那么先利用黑白名單判定,然后再利用規(guī)則(1)進行判定。
基于視覺特征的圖像垃圾郵件過濾方法包括下列步驟:
(1)提取待測圖像郵件中圖像的文件屬性特征,并根據(jù)預先設定的閾值對待測圖像進行判決。標記垃圾圖像和可疑圖像。若為垃圾圖像,則直接過濾;若為可疑圖像,則進入步驟(2)。
(2)提取圖像顏色特征、紋理特征和邊緣特征三種視覺特征,利用特征相似度對圖像進行判決。標記垃圾圖像和非垃圾圖像。若為垃圾圖像,則直接過濾。
步驟(1)所述的文件屬性包括:高度、寬度、高寬比、文件類型、文件大小、文件面積、壓縮率、周長復雜度、文字區(qū)域占總區(qū)域的面積比率等。
最好,在進行步驟(1)之前進行如下步驟:
①建立垃圾圖像模板庫;
②提取垃圾圖像的文件屬性特征;
③訓練文件屬性特征,得到經(jīng)驗閾值;
步驟(2)所述的顏色特征包括:灰度直方圖、顏色直方圖、平均色、顏色集、顏色聚合向量、平均亮度、顏色空間。紋理特征包括:共生矩陣、邊緣頻率、小波變換。形狀特征包括:幾何矩、偏心率、骨架。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經(jīng)北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910083392.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





