[發明專利]一種網絡信息抓取方法和裝置在審
| 申請號: | 201210305527.6 | 申請日: | 2012-08-24 |
| 公開(公告)號: | CN103631806A | 公開(公告)日: | 2014-03-12 |
| 發明(設計)人: | 鄧志鴻;張杰;賴博彥;劉河 | 申請(專利權)人: | 華為技術有限公司;北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 信息 抓取 方法 裝置 | ||
技術領域
本發明涉及網絡技術領域,尤其涉及一種網絡信息抓取方法和裝置。
背景技術
現今很多的諸如購物搜索網站的產品開始注意到互聯網中海量信息的獲取和集成對于用戶的重要性。在這些產品中,作為搜索引擎技術之一的網絡抓取技術是整個構架出來的系統中非常重要的一個環節,能幫助各大搜索引擎抓取網頁并構建網頁數據庫。網絡抓取技術是指程序或腳本按一定的規則,自動地下載互聯網中的特定內容的一項技術。網絡抓取程序一般從某個特定的統一資源定位符(Uniform?Resource?Locator,簡稱URL)出發,獲取訪問該URL返回得到的超文本標記語(Hypertext?Markup?Language,簡稱HTML)網頁,同時對該網頁進行分析,從中抽取得到一系列相關的其他URL用于繼續訪問,從而得到一系列相關的HTML網頁內容,直到遍歷完整個網絡,或者達到一定的條件后停止抓取。
在實現上述網絡抓取的過程中,發明人發現大量的網站開始采用JavaScript、Ajax等技術制作動態網頁來完善用戶的交互與體驗,但這些技術也給網絡抓取帶來了難度。現有的網絡抓取技術獲取的HTML網頁一般為靜態網頁,靜態網頁的特點是其內容完全由訪問的URL確定,并且不同的用戶訪問得到的內容都是一樣的;然而動態網頁除了能得到靜態網頁的內容,還含有大量必須通過執行客戶端腳本才能夠得到的URL,即在動態網頁中,同一個URL,不同的用戶訪問所獲取的網頁內容是不同的,因此當需要針對不同用戶獲取不同的個性化數據時,現有的網絡抓取技術無法直接獲得動態網頁中的URL和URL對應的內容。
發明內容
本發明的實施例提供了一種網絡信息抓取方法和裝置,用以獲得動態網頁中的URL和URL對應的內容。
為達到上述目的,本發明的實施例采用如下技術方案:
第一方面,提供一種網絡信息抓取方法,包括:
通過預設的瀏覽器客戶端訪問靜態的統一資源定位符URL;
獲取所述靜態的URL對應的超文本標記語言HTML文件;
獲取所述HTML文件中對應可實現用戶操作執行的腳本語言函數,所述腳本語言函數包括:JavaScript腳本語言函數;
解析所述腳本語言函數,得到解析后的網頁,并從所述網頁中抽取其他靜態的URL,并將所述網頁存儲。
在第一種可能的實現方式中,根據第一方面,該方法還包括:
創建所述瀏覽器客戶端網絡連接;
設置所述瀏覽器客戶端的瀏覽器版本及支持的腳本語言,所述腳本語言包括JavaScript腳本語言。
在第二種可能的實現方式中,結合第一方面或第一種可能的實現方式,具體實現為:解析所述腳本語言函數,得到解析后的網頁,并從所述網頁中抽取其他靜態的URL包括:通過頁面解析工具解析所述腳本語言函數模擬用戶操作,得到所述解析后的網頁,并應用正則表達式抽取其中的所述其他靜態的URL,所述解析工具包括:htmlunit分析工具。
第二方面,提供了一種網絡信息抓取裝置,所述網絡信息抓取裝置包括:
網頁地址訪問單元,用于通過預設的瀏覽器客戶端訪問靜態的URL;
網頁內容獲取單元,用于獲取所述靜態的URL對應的超文本標記語言HTML文件;
網頁腳本程序獲取單元,用于獲取所述HTML文件中對應可實現用戶操作執行的腳本語言函數,所述腳本語言函數包括:JavaScript腳本語言函數;
網頁解析單元,用于解析所述腳本語言函數,得到解析后的網頁,并從所述網頁中抽取其他靜態的URL,并將所述網頁存儲。
在第一種可能的實現方式中,根據第二方面,所述的網絡信息抓取裝置還包括:
網絡連接單元,用于創建所述瀏覽器客戶端網絡連接;
瀏覽器設置單元,用于設置所述瀏覽器客戶端的瀏覽器版本及支持的腳本語言,所述腳本語言包括:JavaScript腳本語言。
在第二種可能的實現方式中,結合第二方面或第一種可能的實現方式,所述網頁解析單元,具體用于通過頁面解析工具解析所述腳本語言函數模擬用戶操作,得到所述解析后的網頁,并應用正則表達式抽取其中的所述其他靜態的URL,所述解析工具包括:htmlunit分析工具。
第三方面,提供了一種網絡信息抓取裝置,所述網絡信息抓取裝置包括:至少一個入口端和一個出口端以及分別與所述入口端和所述出口端連接的處理器和存儲器,其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司;北京大學,未經華為技術有限公司;北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210305527.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于計算機串行鼠標的接口電路
- 下一篇:車輛被盜跟蹤裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





