[發(fā)明專利]一種通過HTML標簽識別垃圾郵件的方法有效
| 申請?zhí)枺?/td> | 201710043772.7 | 申請日: | 2017-01-19 |
| 公開(公告)號: | CN106817297B | 公開(公告)日: | 2019-11-26 |
| 發(fā)明(設計)人: | 徐慧靈;紀春來 | 申請(專利權)人: | 華云數(shù)據(jù)(廈門)網(wǎng)絡有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 32351 蘇州友佳知識產(chǎn)權代理事務所(普通合伙) | 代理人: | 儲振<國際申請>=<國際公布>=<進入國 |
| 地址: | 中國(福建)自由貿(mào)易試驗區(qū)廈門片區(qū)(保稅區(qū))象嶼路97號廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 html 標簽 識別 垃圾郵件 方法 | ||
本發(fā)明提供了一種通過HTML標簽識別垃圾郵件的方法,包括以下步驟:S1、構(gòu)建使用字符描述HTML代碼中標簽的標簽描述表;S2、順序提取垃圾郵件的HTML代碼中的標簽,并根據(jù)標簽描述表提取包含多個字符的校驗數(shù)據(jù);S3、在接收到新郵件后,提取新郵件的HTML代碼,并根據(jù)標簽描述表將新郵件的HTML代碼中的標簽翻譯成描述數(shù)據(jù);S4、將描述數(shù)據(jù)與校驗數(shù)據(jù)進行比較,以至少將命中校驗數(shù)據(jù)的描述數(shù)據(jù)所對應的新郵件判定為垃圾郵件。在發(fā)明中,僅需要通過將新郵件的HTML代碼所組成的描述數(shù)據(jù)與事先設定的垃圾郵件中的HTML代碼所所組成的校驗數(shù)據(jù)進行比較并判定,顯著地降低了后臺服務器或者網(wǎng)頁搜索引擎的計算開銷,簡化了識別垃圾郵件的步驟。
技術領域
本發(fā)明涉及反垃圾郵件技術領域,尤其涉及一種通過HTML標簽識別垃圾郵件的方法。
背景技術
隨著互聯(lián)網(wǎng)的發(fā)展,垃圾郵件對使用者造成的危害愈來愈大。垃圾郵件中通常包括推銷郵件或者具有色情或者其他不良信息的郵件。為此,現(xiàn)有技術中出現(xiàn)了多種反垃圾郵件的識別及過濾方法及后臺服務器過濾機制。
目前主流的反垃圾郵件的方法主要包括:
(1)光學字符識別法(OCR),其通過實現(xiàn)對包含廣告圖片或者純文本的內(nèi)容進行提取,通過內(nèi)容判斷是否廣告內(nèi)容,從而實現(xiàn)垃圾郵件的識別,但是這種技術對計算機造成的開銷較大。
(2)基于MD5校驗的郵件檢測技術,其通過將任意長度的字符串執(zhí)行散列運算,轉(zhuǎn)換成較短的固定長度的值。由于任意兩個不同字符串的MD5值不相同,因此可通過比較兩個字符串的MD5值來判斷兩個字符串是否相同。但是這種反垃圾郵件技術對郵件內(nèi)容非嚴格相同,出現(xiàn)任何變化時都會導致MD5值的不同,從而嚴重影響對該郵件是否為垃圾郵件的判定并執(zhí)行過濾及攔截操作。
(3)基于貝葉斯分類器對垃圾郵件進行過濾的現(xiàn)有技術,相關專利可參考中國發(fā)明專利CN200510135603.3、中國發(fā)明專利CN200410063953.9、中國發(fā)明專利CN200510087762.0、中國發(fā)明專利CN200510082282.5等。但是,在使用貝葉斯分類器在對郵件進行分類時,需要預先對垃圾郵件建模,并依據(jù)模型對后續(xù)郵件進行分類,因此現(xiàn)有的反垃圾郵件技術存在步驟繁瑣且可靠性較低的缺陷。
同時,現(xiàn)有技術中的反垃圾郵件技術直接對郵件(其主要為HTML格式的郵件)中包含的預先設定的文字或者圖片進行掃描檢測,這樣勢必導致對正常發(fā)送的郵件也需要執(zhí)行上述檢驗或者過濾操作,因此會增加后臺服務器或者網(wǎng)頁搜索引擎的計算開銷。
有鑒于此,有必要對現(xiàn)有技術中的對垃圾郵件的識別方法予以改進,以解決上述問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于公開一種通過HTML標簽識別垃圾郵件的方法,用以實現(xiàn)對HTML格式的垃圾郵件進行有效識別,降低后臺服務器或者網(wǎng)頁搜索引擎的計算開銷,簡化識別垃圾郵件的步驟。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種通過HTML標簽識別垃圾郵件的方法,包括以下步驟:
S1、構(gòu)建使用字符描述HTML代碼中標簽的標簽描述表;
S2、順序提取垃圾郵件的HTML代碼中的標簽,并根據(jù)標簽描述表提取包含多個字符的校驗數(shù)據(jù);
S3、在接收到新郵件后,提取新郵件的HTML代碼,并根據(jù)標簽描述表將新郵件的HTML代碼中的標簽翻譯成描述數(shù)據(jù);
S4、將描述數(shù)據(jù)與校驗數(shù)據(jù)進行比較,以至少將命中校驗數(shù)據(jù)的描述數(shù)據(jù)所對應的新郵件判定為垃圾郵件。
作為本發(fā)明的進一步改進,將至少匹配校驗數(shù)據(jù)的首部排列順序或者尾部排列順序的描述數(shù)據(jù)所對應的新郵件判定為垃圾郵件。
作為本發(fā)明的進一步改進,所述標簽描述表包括若干條記錄,所述記錄由校驗數(shù)據(jù)及校驗數(shù)據(jù)的長度信息組成;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華云數(shù)據(jù)(廈門)網(wǎng)絡有限公司,未經(jīng)華云數(shù)據(jù)(廈門)網(wǎng)絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710043772.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





