[發明專利]一種識別被篡改網頁的方法及裝置有效
| 申請號: | 201210090778.7 | 申請日: | 2012-03-30 |
| 公開(公告)號: | CN102663060A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 李繼峰;趙武 | 申請(專利權)人: | 奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市德權律師事務所 11302 | 代理人: | 劉麗君 |
| 地址: | 100016 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 篡改 網頁 方法 裝置 | ||
技術領域
本發明涉及計算機技術領域,特別是涉及一種識別被篡改網頁的方法及裝置。
背景技術
隨著互聯網的迅速發展,網頁上提供了足夠豐富的內容,供用戶在網上查找資料及個人所需要的各種信息。但是,現實中網頁內所顯示的信息很有可能是已經被黑客篡改后的內容,而并不是客戶真正所需要的信息。例如,用戶輸入某一個查詢關鍵詞,打開搜索結果中的某一網頁,其中的內容并不是與該關鍵詞相關的內容,而是一些美女或色情的圖片,等等。由于這些被篡改的網頁給用戶的日常瀏覽造成了不良影響,因此網絡安全工具一個很重要的工作就是,需要將網絡中存在的一些被篡改的網頁識別出來。
現有技術中,通常是通過遍歷網頁的各個目錄的方式來判斷是否存在可疑的文件,如果存在,則證明該網頁可能被篡改過。對于一個網頁而言,實際上對應著一個數據包,在數據包中可能存在多個目錄,對各種資源進行分類管理,例如,包含圖片、視頻、音樂等等目錄;黑客在篡改網頁時,可能會將篡改后的內容放到其中的某個目錄中,或者用篡改后的文件替換某目錄中的某文件等等。采用遍歷網頁的方式識別網頁是否被篡改,如果完整的遍歷所有的網頁可能需要幾個小時。因此,目前的判斷網頁是否被篡改的方法所需要的時間長,占用系統資源量大。
發明內容
本發明提供了一種識別被篡改網頁的方法及裝置,能夠在較短的時間內識別網頁是否被篡改。
本發明提供了如下方案:
一種識別被篡改網頁的方法,包括:
獲取網頁搜索結果,所述獲取網頁搜索結果包括基于預置的關鍵詞向搜索引擎發起搜索請求,獲取搜索引擎返回的網頁搜索結果,所述預置的關鍵詞為被篡改網頁的特征標識;
提取網頁搜索結果中的網頁鏈接;
對所述提取的網頁鏈接對應的網頁進行加載,獲取所述網頁鏈接對應的當前頁面內容;
基于所述預置的關鍵詞對所述網頁鏈接對應的當前頁面內容進行分析,根據分析結果,識別出被篡改的網頁。
其中,所述獲取網頁搜索結果還包括:
基于所述預置的關鍵詞,向所述搜索引擎返回的搜索結果中的網頁鏈接所對應的頁面服務器發起站內搜索請求,獲取頁面服務器返回的網頁搜索結果。
其中,所述提取網頁搜索結果中的網頁鏈接包括:
對網頁搜索結果中包含的所述網頁鏈接對應的網頁內容進行語義分析,提取出網頁內容中包含語義符合預置條件的內容的網頁鏈接。
其中,所述基于所述預置的關鍵詞對各個網頁鏈接對應的當前頁面內容進行分析,根據分析結果,識別出被篡改的網頁包括:
判斷各個網頁鏈接對應的當前頁面內容中是否包含所述預置的關鍵詞;
如果包含,則將網頁鏈接對應的網頁確定為被篡改的網頁。
其中,所述基于所述預置的關鍵詞對各個網頁鏈接對應的當前頁面內容進行分析,根據分析結果,識別出被篡改的網頁包括:
判斷各個網頁鏈接對應的當前頁面內容中是否包含所述預置的關鍵詞;
如果包含,則對所述當前頁面內容進行語義分析,將語義分析結果符合預置條件的網頁鏈接對應的網頁確定為被篡改的網頁。
一種識別被篡改網頁的裝置,包括:
網頁搜索結果獲取單元,用于獲取網頁搜索結果,所述網頁搜索結果獲取單元包括第一獲取子單元,用于基于預置的關鍵詞向搜索引擎發起搜索請求,獲取搜索引擎返回的網頁搜索結果,所述預置的關鍵詞為被篡改網頁的特征標識;
網頁鏈接提取單元,用于提取網頁搜索結果中的網頁鏈接;
網頁加載單元,用于對所述提取的網頁鏈接對應的網頁進行加載,獲取所述網頁鏈接對應的當前頁面內容;
識別單元,基于所述預置的關鍵詞對所述網頁鏈接對應的當前頁面內容進行分析,根據分析結果,識別出被篡改的網頁。
其中,所述網頁搜索結果獲取單元還包括:
第二獲取子單元,用于基于所述預置的關鍵詞,向所述搜索引擎返回的搜索結果中的網頁鏈接所對應的頁面服務器發起站內搜索請求,獲取頁面服務器返回的網頁搜索結果。
其中,所述網頁鏈接提取單元包括:
語義分析子單元,用于對網頁搜索結果中包含的所述網頁鏈接對應的網頁內容進行語義分析,
提取子單元,用于提取出網頁內容中包含語義符合預置條件的內容的網頁鏈接。
其中,所述識別單元包括:
第一識別子單元,用于判斷各個網頁鏈接對應的當前頁面內容中是否包含所述預置的關鍵詞,如果包含,則將網頁鏈接對應的網頁確定為被篡改的網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇智軟件(北京)有限公司,未經奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210090778.7/2.html,轉載請聲明來源鉆瓜專利網。





