[發明專利]網頁地址的獲取方法和獲取裝置有效
| 申請號: | 201110317132.3 | 申請日: | 2011-10-18 |
| 公開(公告)號: | CN102346780A | 公開(公告)日: | 2012-02-08 |
| 發明(設計)人: | 高寧;邵晴;崔福東 | 申請(專利權)人: | 北龍中網(北京)科技有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 劉芳 |
| 地址: | 100190 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 地址 獲取 方法 裝置 | ||
技術領域
本發明涉及互聯網安全技術,尤其涉及一種網頁地址的獲取方法和獲取裝置。
背景技術
隨著互聯網網頁制作技術的不斷進步,可在同一個網頁頁面中通過多種方法引入其他網頁頁面并呈現給用戶。網頁頁面的常用引入方法包括:內框(iframe)法、引用(include)法、瀏覽器下載(IE:Download)法、對象(object)等。這些方法寫法各不相同,并且IE等瀏覽器對這些編程寫法的格式要求并不嚴格,例如:對程序中有無雙引號、有無空格、前后的標簽是否嚴格匹配等格式無嚴格要求,IE等瀏覽器可以識別和處理這些程序,從而保證了網頁頁面的兼容性。此外,引用法還支持網頁頁面的遞歸嵌套引用,例如:在“1.html”中引用“2.html”,在2.html”中引用“3.html”,在“3.html”中引用“4.html”,以此類推,層層嵌套即遞歸調用。IE等瀏覽器根據網頁地址之間的遞歸調用順序依次訪問相應網頁。
在實際應用中,如果發現某網站的某網頁被植入木馬,需要查找到從源網頁(如該網站的首頁)到目的網頁(如感染木馬或病毒的網頁之間的所有鏈接,以便及時進行木馬告警或查殺等處理。
獲取網頁地址的一種現有技術是關鍵字查找法。關鍵字查找法是將網頁識別為一個普通的文本文件,先完全下載下來,然后將網頁讀入程序中,程序中查詢各種網頁引用和網頁跳轉的關鍵字,然后通過關鍵字定位出要引用或跳轉的網頁地址。例如:在網頁“1.html”中,通過字符串查找關鍵字“include”,那么就可以根據這個關鍵字就可以找到該網頁要引用的網頁地址<include?src=″2.html″>,然后再下載“2.html”;將“2.html”與目的網頁地址“4.html”進行比較,當二者不符時,則再重復執行上述步驟,直至找到目的網頁地址“4.html”。
獲取網頁地址的另一種現有技術是頁面元素法。頁面元素法是在加載網頁時將網頁識別為各種元素,網頁的各個標簽代表了不同的元素類型,通過所有的跳轉類型的元素和引用類型的元素,就能夠查找到要引用或跳轉的網頁地址。例如:當讀取<include?src=″2.html″>時,程序會自動將其識別為一個引用類型的元素,同時可得到其引用的網頁地址為“2.html”;將“2.html”與目的網頁地址“4.html”進行比較,當二者不符時,則再重復執行上述步驟,直至找到目的網頁地址“4.html”。
如上述所述,現有引入網頁頁面的方法多種多樣,編程寫法也不統一,這使得如果要獲取源網頁到目的網頁之間遞歸調用的所有的網頁地址(如2.html和3.html),不得不遍歷查找所有的關鍵字或網頁元素,這使得現有的關鍵字查找法和頁面元素法存在的以下共同缺陷:
(1)程序開發和維護成本高:當有引入網頁頁面的新方法出現時,程序是無法立刻自動識別和抓取的,需要重新開發程序添加新的關鍵字或網頁元素類型;
(2)錯誤率高:現有引入網頁頁面的方法缺少規范的編程寫法,使得程序無法正確識別采用不規范編程寫法引入的網頁地址,可能出現漏判和誤判的情況,如使原本的引用頁面沒有找到,而將非引用頁面誤判為是引入頁面;
(3)運行速度慢:隨著新的引入網頁頁面的新方法的增加,需要遍歷的關鍵字也越來越多,這導致程序處理的速度也越來越慢;此外,由于識別網頁元素時,網頁所有內容都是加載到內存中的,因此,當網頁頁面較大時,程序識別速度會變得很慢。
發明內容
本發明提供一種網頁地址的獲取方法和獲取裝置,用以降低獲取網頁地址所需的成本,提高獲取效率。
本發明提供一種網頁地址的獲取方法,包括:
在瀏覽器啟動時,初始化所述瀏覽器中預先嵌入的瀏覽器嵌入插件,并在所述瀏覽器嵌入插件的初始化過程中,向所述瀏覽器中注冊瀏覽器嵌入插件的回調函數指針;
在所述瀏覽器每次觸發與打開網頁相應的操作事件時,通過所述瀏覽器調用所述回調函數指針指向的回調函數、將所述操作事件引用或跳轉的網頁地址寫入所述回調函數的相應參數中,以及通過所述瀏覽器嵌入插件解析所述回調函數并記錄解析結果,直至所述解析結果滿足預設結束條件;
所述解析結果包括:每次觸發的與打開網頁相應的操作事件引用或跳轉的網頁地址,以及多次記錄的網頁地址之間的遞歸調用關系。
本發明還提供了一種網頁地址的獲取裝置,包括:
初始化處理模塊,用于在瀏覽器啟動時,初始化所述瀏覽器中預先嵌入的瀏覽器嵌入插件,并在所述瀏覽器嵌入插件的初始化過程中,向所述瀏覽器中注冊瀏覽器嵌入插件的回調函數指針;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北龍中網(北京)科技有限責任公司,未經北龍中網(北京)科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110317132.3/2.html,轉載請聲明來源鉆瓜專利網。





