[發明專利]一種識別被篡改網頁的方法及裝置有效
| 申請號: | 201210090778.7 | 申請日: | 2012-03-30 |
| 公開(公告)號: | CN102663060A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 李繼峰;趙武 | 申請(專利權)人: | 奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市德權律師事務所 11302 | 代理人: | 劉麗君 |
| 地址: | 100016 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 篡改 網頁 方法 裝置 | ||
1.一種識別被篡改網頁的方法,其特征在于,包括:
獲取網頁搜索結果,所述獲取網頁搜索結果包括基于預置的關鍵詞向搜索引擎發起搜索請求,獲取搜索引擎返回的網頁搜索結果,所述預置的關鍵詞為被篡改網頁的特征標識;
提取網頁搜索結果中的網頁鏈接;
對所述提取的網頁鏈接對應的網頁進行加載,獲取所述網頁鏈接對應的當前頁面內容;
基于所述預置的關鍵詞對所述網頁鏈接對應的當前頁面內容進行分析,根據分析結果,識別出被篡改的網頁。
2.根據權利要求1所述的方法,其特征在于,所述獲取網頁搜索結果還包括:
基于所述預置的關鍵詞,向所述搜索引擎返回的搜索結果中的網頁鏈接所對應的頁面服務器發起站內搜索請求,獲取頁面服務器返回的網頁搜索結果。
3.根據權利要求1或2所述的方法,其特征在于,所述提取網頁搜索結果中的網頁鏈接包括:
對網頁搜索結果中包含的所述網頁鏈接對應的網頁內容進行語義分析,提取出網頁內容中包含語義符合預置條件的內容的網頁鏈接。
4.根據權利要求1或2所述的方法,其特征在于,所述基于所述預置的關鍵詞對各個網頁鏈接對應的當前頁面內容進行分析,根據分析結果,識別出被篡改的網頁包括:
判斷各個網頁鏈接對應的當前頁面內容中是否包含所述預置的關鍵詞;
如果包含,則將網頁鏈接對應的網頁確定為被篡改的網頁。
5.根據權利要求1或2所述的方法,其特征在于,所述基于所述預置的關鍵詞對各個網頁鏈接對應的當前頁面內容進行分析,根據分析結果,識別出被篡改的網頁包括:
判斷各個網頁鏈接對應的當前頁面內容中是否包含所述預置的關鍵詞;
如果包含,則對所述當前頁面內容進行語義分析,將語義分析結果符合預置條件的網頁鏈接對應的網頁確定為被篡改的網頁。
6.一種識別被篡改網頁的裝置,其特征在于,包括
網頁搜索結果獲取單元,用于獲取網頁搜索結果,所述網頁搜索結果獲取單元包括第一獲取子單元,用于基于預置的關鍵詞向搜索引擎發起搜索請求,獲取搜索引擎返回的網頁搜索結果,所述預置的關鍵詞為被篡改網頁的特征標識;
網頁鏈接提取單元,用于提取網頁搜索結果中的網頁鏈接;
網頁加載單元,用于對所述提取的網頁鏈接對應的網頁進行加載,獲取所述網頁鏈接對應的當前頁面內容;
識別單元,基于所述預置的關鍵詞對所述網頁鏈接對應的當前頁面內容進行分析,根據分析結果,識別出被篡改的網頁。
7.根據權利要求6所述的裝置,其特征在于,所述網頁搜索結果獲取單元還包括:
第二獲取子單元,用于基于所述預置的關鍵詞,向所述搜索引擎返回的搜索結果中的網頁鏈接所對應的頁面服務器發起站內搜索請求,獲取頁面服務器返回的網頁搜索結果。
8.根據權利要求6或7所述的裝置,其特征在于,所述網頁鏈接提取單元包括:
語義分析子單元,用于對網頁搜索結果中包含的所述網頁鏈接對應的網頁內容進行語義分析,
提取子單元,用于提取出網頁內容中包含語義符合預置條件的內容的網頁鏈接。
9.根據權利要求6或7所述的裝置,其特征在于,所述識別單元包括:
第一識別子單元,用于判斷各個網頁鏈接對應的當前頁面內容中是否包含所述預置的關鍵詞,如果包含,則將網頁鏈接對應的網頁確定為被篡改的網頁。
10.根據權利要求6或7所述的裝置,其特征在于,所述識別單元包括:
第二識別子單元,用于判斷各個網頁鏈接對應的當前頁面內容中是否包含所述預置的關鍵詞,如果包含,則對所述當前頁面內容進行語義分析,將語義分析結果符合預置條件的網頁鏈接對應的網頁確定為被篡改的網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇智軟件(北京)有限公司,未經奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210090778.7/1.html,轉載請聲明來源鉆瓜專利網。





