[發明專利]識別網頁的方法和裝置有效
| 申請號: | 201110388583.6 | 申請日: | 2011-11-29 |
| 公開(公告)號: | CN103136251A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 馬杰 | 申請(專利權)人: | 星云融創(北京)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 吳貴明;余剛 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 網頁 方法 裝置 | ||
技術領域
本發明涉及計算機技術領域,特別地涉及一種識別網頁的方法和裝置。
背景技術
長期以來,互聯網上遍布著大量的惡意站點,其中含有許多釣魚、欺詐網頁,給用戶造成了巨大的精神損害和經濟損失。信息安全廠商提供的假冒網站識別方法在早期主要基于URL黑白名單匹配,由于惡意站點的生命周期一般較短,因此黑白名單匹配具有先天不足--即滯后性。一個新誕生的惡意站點被安全公司捕獲并分析確認,之后再加入URL名單庫,再下發給終端安全軟件,往往整個流程完成時該URL已經失效。隨著技術的發展,目前的假冒網站識別主要基于網頁特征匹配。網頁特征匹配主要依賴對網頁源碼的分析,對網頁元素(如關鍵文字)進行匹配。該技術依然有很多不足。假冒網站作者可以使用各種加密、混淆、變換等手段,使假冒網頁的源代碼與要仿冒的網頁的源代碼相似度較低,來逃避安全軟件識別。
現有技術中,對于網頁仿冒的識別效果不佳,對于該問題,目前尚未提出有效解決方案。
發明內容
本發明的主要目的是提供一種識別網頁的方法和裝置,以解決現有技術對于網頁仿冒的識別效果不佳的問題。
為了實現上述目的,根據本發明的一個方面,提供了一種識別網頁的方法。
本發明的識別網頁的方法用于判斷待識別網頁是否為被比網頁的仿冒網頁,所述方法包括:判斷待識別網頁的網絡地址與被比網頁的網絡地址是否相同,并且在二者不相同的情況下,獲取待識別網頁的外觀圖片,以及獲取被比網頁的外觀圖片;使用圖像對比的方法確定待識別網頁的外觀圖片和被比網頁的外觀圖片之間的相似度,在該相似度大于預設值時確認待識別網頁為被比網頁的仿冒網頁。
進一步地,判斷待識別網頁的URL與被比網頁的URL是否相同,包括:使用字符串比對的方式比較待識別網頁的URL與被比網頁的URL。
進一步地,獲取待識別網頁的外觀圖片,以及獲取被比網頁的外觀圖片,包括:獲取待識別網頁的源代碼以及被比網頁的源代碼;根據待識別網頁的源代碼生成待識別網頁,以及根據被比網頁的源代碼生成被比網頁;獲取生成的待識別網頁以及被比網頁的外觀圖片。
進一步地,使用圖像對比的方法確定待識別網頁的外觀圖片和被比網頁的外觀圖片之間的相似度,包括:從待識別網頁的外觀圖片和被比網頁的外觀圖片中的相同位置處各截取圖塊,使用圖像對比的方法確定截取的兩個圖塊之間的相似度,以該相似度作為待識別網頁的外觀圖片和被比網頁的外觀圖片之間的相似度。
進一步地,從待識別網頁的外觀圖片和被比網頁的外觀圖片中的相同位置處各截取圖塊,包括:根據待識別網頁和被比網頁的源代碼確定待識別網頁的外觀圖片和被比網頁的外觀圖片中的包含圖片元素的相同位置;從待識別網頁的外觀圖片和被比網頁的外觀圖片中的包含圖片元素的相同位置各截取圖塊。
根據本發明的另一方面,提供了一種識別網頁的裝置,用于判斷待識別網頁是否為被比網頁的仿冒網頁,所述裝置包括:判斷模塊,用于判斷待識別網頁的網絡地址與被比網頁的網絡地址是否相同;獲取模塊,用于獲取待識別網頁的外觀圖片,以及獲取被比網頁的外觀圖片;比較模塊,用于使用圖像對比的方法確定待識別網頁的外觀圖片和被比網頁的外觀圖片之間的相似度;輸出模塊,用于在所述相似度大于預設值時輸出用于確認待識別網頁為被比網頁的仿冒網頁的確認信息。
進一步地,所述判斷模塊還用于使用字符串比對的方式比較待識別網頁的URL與被比網頁的URL。
進一步地,所述獲取模塊還用于:獲取待識別網頁的源代碼以及被比網頁的源代碼;根據待識別網頁的源代碼生成待識別網頁,以及根據被比網頁的源代碼生成被比網頁;獲取生成的待識別網頁以及被比網頁的外觀圖片。
進一步地,所述比較模塊還用于:從待識別網頁的外觀圖片和被比網頁的外觀圖片中的相同位置處各截取圖塊,使用圖像對比的方法確定截取的兩個圖塊之間的相似度,以該相似度作為待識別網頁的外觀和被比網頁的外觀圖片之間的相似度。
進一步地,所述比較模塊還用于:根據待識別網頁和被比網頁的源代碼確定待識別網頁的外觀圖片和被比網頁的外觀圖片中的包含圖片元素的相同位置;從待識別網頁的外觀圖片和被比網頁的外觀圖片中的包含圖片元素的相同位置各截取圖塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于星云融創(北京)科技有限公司,未經星云融創(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110388583.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:含鎳廢水處理系統
- 下一篇:一種非對稱形隔油提升一體化設備





