[發明專利]一種通過HTML標簽識別垃圾郵件的方法有效
| 申請號: | 201710043772.7 | 申請日: | 2017-01-19 |
| 公開(公告)號: | CN106817297B | 公開(公告)日: | 2019-11-26 |
| 發明(設計)人: | 徐慧靈;紀春來 | 申請(專利權)人: | 華云數據(廈門)網絡有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 32351 蘇州友佳知識產權代理事務所(普通合伙) | 代理人: | 儲振<國際申請>=<國際公布>=<進入國 |
| 地址: | 中國(福建)自由貿易試驗區廈門片區(保稅區)象嶼路97號廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 html 標簽 識別 垃圾郵件 方法 | ||
1.一種通過HTML標簽識別垃圾郵件的方法,其特征在于,包括以下步驟:
S1、構建使用字符描述HTML代碼中標簽的標簽描述表;
S2、順序提取垃圾郵件的HTML代碼中的標簽,并根據標簽描述表提取包含多個字符的校驗數據;
S3、在接收到新郵件后,提取新郵件的HTML代碼,并根據標簽描述表將新郵件的HTML代碼中的標簽翻譯成描述數據;
S4、將描述數據與校驗數據進行比較,以至少將命中校驗數據的描述數據所對應的新郵件判定為垃圾郵件。
2.根據權利要求1所述的方法,其特征在于,將至少匹配校驗數據的首部排列順序或者尾部排列順序的描述數據所對應的新郵件判定為垃圾郵件。
3.根據權利要求1或者2所述的方法,其特征在于,所述標簽描述表包括若干條記錄,所述記錄由校驗數據及校驗數據的長度信息組成;
若使用標簽描述表對新郵件的HTML代碼中的標簽進行翻譯后所得的描述數據的長度信息與校驗數據的長度信息相等,則將新郵件判定為垃圾郵件。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括:所述校驗數據的長度信息的取值范圍為[m,n],若使用標簽描述表對新郵件的HTML代碼中的標簽進行翻譯后所得的描述數據的長度信息位于校驗數據的長度信息的取值范圍內,則將新郵件判定為垃圾郵件。
5.根據權利要求4所述的方法,其特征在于,所述校驗數據的長度信息的取值范圍的上限n取100,取值范圍的下限m取20。
6.根據權利要求1所述的方法,其特征在于,所述字符為數字、字母、或者ASCⅡ碼中的一種或者兩種以上任意組合的計算機可讀數據。
7.根據權利要求1所述的方法,其特征在于,所述字符的字節長度固定。
8.根據權利要求1所述的方法,其特征在于,所述方法還包括將與校驗數據重合度高于80%的描述數據所對應的新郵件判定為垃圾郵件。
9.根據權利要求8所述的方法,其特征在于,所述方法還包括將新郵件的描述數據掃描校驗數據,若描述數據與校驗數據相重合的片段中所包含的字符數高于描述數據所包含的字符數量的80%,則將所述新郵件判定為垃圾郵件;其中,所述描述數據與校驗數據相重合的片段的長度大于或者等于10個字符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華云數據(廈門)網絡有限公司,未經華云數據(廈門)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710043772.7/1.html,轉載請聲明來源鉆瓜專利網。





