[發明專利]一種反圖像型垃圾郵件的方法及裝置無效
| 申請號: | 201010179967.2 | 申請日: | 2010-05-21 |
| 公開(公告)號: | CN101877066A | 公開(公告)日: | 2010-11-03 |
| 發明(設計)人: | 劉嶠;鄧蔚;羅緒成;王超 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 圖像 垃圾郵件 方法 裝置 | ||
技術領域
本發明涉及圖像處理與模式識別技術,具體涉及一種垃圾郵件圖像的特征提取、識別技術及裝置。
背景技術
經過30多年的發展,電子郵件已成為互連網非常重要的的組成部分,電子郵件在人們交流和通信中扮演越來越重要的角色。然而,垃圾郵件的泛濫使得電子郵件受到巨大挑戰。目前,我國已成為垃圾郵件的受害者。據中國互聯網信息中心(CNNIC)發布的《中國互聯網發展狀況統計報告》顯示,2004年1月中國網民平均每周收到垃圾郵件7.9封,但是2009年1月中國網民平均每周收到的垃圾郵件數量達到17.55封,隨著網民數量的增加垃圾郵件的數量也不斷的在增加。普通用戶收到的垃圾郵件主要有三種:純文本格式,純圖片格式和圖片加文本格式。其中只有30%是純文本格式,這也說明圖像垃圾郵件所占比例接近70%。垃圾郵件問題從出現之初就引起了社會各界的關注,并出現了大量的垃圾郵件檢測算法,例如IP黑名單、基于規則的垃圾郵件檢測算法、基于文本內容的檢測算法等、基于行為的過濾方式。其中以基于文本內容的檢測算法研究得最多,其性能也最好。
然而,就像在病毒與反病毒的斗爭中一樣,隨著反垃圾郵件技術的不斷發展,垃圾郵件制造者自身技術也在不斷提高。由于基于文本內容的反垃圾郵件系統在檢測文本信息方面已經具有很高的效率,為了逃避此種系統的檢測,垃圾郵件制造者將文字信息嵌入到圖像中,以圖像為載體來傳播垃圾信息。這種以圖像為載體的垃圾郵件被稱為圖像型垃圾郵件,由于其文本內容被嵌入在圖像中,使得基于文本內容的反垃圾郵件系統完全失效。并且圖像型垃圾郵件的體積是文本型垃圾郵件的10-20倍,圖片型垃圾郵件一方面消耗大量的網絡資源,導致網絡堵塞;另一方面浪費大量的存儲資源,導致社會經濟的重大損失。圖像型垃圾郵件的蔓延,已給社會帶來極大的負面影響。
為遏制圖像型垃圾郵件的蔓延,彌補基于文本內容的垃圾郵件檢測系統的不足,已經有許多學者對圖像型垃圾郵件作了較深入的研究。當前主流的商業系統采用該技術利用光學文字識別技術(OCR)來提取圖像中嵌入的文字,然后利用傳統的基于文本內容的垃圾郵件檢測手段識別圖像型垃圾郵件。但是垃圾郵件中所嵌入的圖像通常含有大量人為干擾,使得文字識別正確率較低,效率也不高。另外一些學者則提出利用垃圾郵件中所含圖像的屬性作為特征來識別圖像型垃圾郵件,例如大小、寬、高、面積等。該方法雖然識別速度較快,但僅能識別出較少的圖像型垃圾郵件。反垃圾郵件領域仍在尋找一種快速高效的圖像型垃圾郵件識別算法以解決圖像型垃圾郵件問題。
發明內容
本發明主要提出一種垃圾郵件圖像識別方法及裝置。通過提取郵件中所含圖像的元數據、顏色特征、紋理特征和形狀特征,結合支持向量機實現垃圾郵件圖像的自動檢測與識別。本發明的主要內容包括提取郵件圖像的元數據特征、提取圖像的顏色特征、提取圖像的紋理特征和形狀特征的技術,基于支持向量機的垃圾郵件圖像自動識別裝置。
為了實現上述目的,采取的技術方案是:
1.提取待測圖像郵件中圖像的元數據特征。
元數據特征包括:高度、寬度、高寬比、文件類型、文件大小、文件面積、壓縮率、周長復雜度、文字區域占總區域的面積比率等。
2.提取待測圖像郵件中圖像的顏色特征。
顏色特征包括:灰度直方圖、顏色直方圖、平均色、顏色集、顏色聚合向量、平均亮度、顏色空間等。
3.提取待測圖像郵件中圖像的紋理特征。
紋理特征包括:共生矩陣、邊緣頻率、小波變換等。
4.提取待測圖像郵件中圖像的形狀特征。
形狀特征包括:幾何矩、偏心率、骨架等。
5.基于支持向量機的垃圾郵件圖像自動識別裝置
支持向量機(SVM,Support?Vector?Machine)是一種基于統計學習理論的機器學習方法。統計學習理論針對小樣本統計問題建立了一套新的理論體系,最近10多年間發展迅速,成為各界研究的熱點。支持向量機也隨之發展,它通過構造最優分類平面來實現分類。在傳統的基于文本內容的垃圾郵件過濾算法中,支持向量機就表現出了很好的性能。因此本發明利用支持向量機作為分類算法,對郵件圖像進行分類以識別出垃圾郵件圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010179967.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:BPMN的形式化分析和驗證方法
- 下一篇:電力系統經濟負荷分配的混沌搜索方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





