[發明專利]一種動態腳本網站數據快速收集方法無效
| 申請號: | 200910090288.5 | 申請日: | 2009-08-04 |
| 公開(公告)號: | CN101625692A | 公開(公告)日: | 2010-01-13 |
| 發明(設計)人: | 夏冰;高軍;王騰蛟;楊冬青 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京紀凱知識產權代理有限公司 | 代理人: | 徐 寧;關 暢 |
| 地址: | 100871北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 腳本 網站 數據 快速 收集 方法 | ||
技術領域
本發明涉及一種網絡數據收集方法,特別是關于一種動態腳本網站數據快速 收集方法。
背景技術
隨著Web?2.0時代的到來,互聯網越來越多地在服務器端和客戶端采用了動 態腳本的方式進行交互。網頁的內容,從以前的靜態方式轉變到從數據庫中獲取 數據動態生成。一方面,網頁主頁面下載到本地后還需要與服務器端再進行數次 交互才能獲得全部的數據,如新浪博客的閱讀數和評論數即為頁面載入后再向服 務器發送請求獲取的;另一方面,網頁內容的鏈接很多也不再是傳統的“<a>”標 簽,而是使用了JavaScript的方式,如騰訊論壇、網易論壇等的翻頁方式是采用 JavaScript來控制的。
爬蟲是搜索引擎的第一步,也是對互聯網數據分析的基礎。傳統爬蟲對待現 有的網站存在先天不足的缺陷:主流搜索引擎對待動態腳本網站一般采取回避、 硬編碼的方式和某些網站預留給搜索引擎接口的三種態度。有研究機構提出了模 擬用戶行為依次點擊頁面所有的頁面元素來進行抓取動態腳本網站的技術,但這 一方式速度很慢,不適合實際應用。
發明內容
針對上述問題,本發明的目的是提供一種可以只通過觸發特定頁面元素上的 特定事件,從而大幅減少了需要觸發的事件數目,提高了動態腳本網站數據的收 集速度的動態腳本網站數據快速收集方法。
為實現上述目的,本發明采取以下技術方案:一種動態腳本網站數據快速收 集方法,其特征在于:它包括以下步驟:i)獲取Index頁面并保存,將Index頁 面加入待處理隊列;ii)判斷所述待處理隊列是否為空,若為空則表明抓取完成, 退出抓取過程;否則從所述待處理隊列中任意選擇一個頁面,利用頁面相似性得 到當前頁面的類型,根據訓練步驟中提取出的所述XPath路徑特征,確定所述類 型需要觸發哪些頁面元素上的哪些事件;iii)判斷所述當前頁面是否有未觸發過 的事件,若沒有則跳轉到步驟ii);否則觸發事件,判斷所述當前頁面是否變化且 變化后的頁面為新頁面,若沒有變化或非新頁面則跳轉到步驟v);否則繼續執行 步驟iv);vi)保存所述新頁面并將所述新頁面加入到步驟i)中的待處理隊列; v)回退到觸發事件前的頁面狀態,并跳轉到步驟iii)。
所述步驟ii)中,所述訓練步驟包括:1)由人工給出各類型頁面成訓練樣本 集合;2)判斷所述訓練樣本集合是否為空,若為空則跳轉到步驟5),否則從所述 訓練樣本集合中選擇一個頁面;3)判斷當前頁面上是否還有未觸發過的事件,若 沒有則跳轉到步驟2);否則觸發當前事件,記錄當前事件的事件信息;4)回退到 觸發事件前的頁面狀態,并跳轉到步驟3);5)根據所述事件信息提取各類型頁面 需觸發事件的XPath路徑特征及事件類型。
所述步驟3)中,所述當前頁面的事件信息包括,事件類型、觸發事件的頁面 元素、頁面是否變化、變化后頁面是哪種類型。
所述步驟5)中,所述XPath路徑特征的提取方法如下:被歸約的XPath路徑 經過的頁面元素名稱必須相同,對頁面元素的序號進行歸約。
本發明由于采取以上技術方案,其具有以下優點:1、本發明由于利用了頁面 套用模板的相似性,因此能夠預知在哪些頁面元素上的點擊等事件將導向什么性 質的頁面,從而利用頁面相似性得到的頁面類型確定當前頁面的類型需要觸發哪 些頁面元素上的哪些事件。2、本發明通過對導向需要頁面的頁面元素的XPath進 行歸約,提取出其特征及事件類型,因此只觸發特定頁面元素上的特定事件,大 幅減少了模擬用戶操作的次數,提高了動態腳本網站數據的收集速度。本發明可 應用于各種網絡搜索引擎的網頁抓取工作。
附圖說明
圖1是本發明的抓取數據之前的訓練步驟流程示意圖
圖2是本發明的寬度優先的抓取方法步驟流程示意圖
具體實施方式
下面結合附圖和實施例對本發明進行詳細的描述。
針對于現有技術中對待動態腳本網站采用的不處理、硬編碼方式,本發明方 法的執行過程包括兩部分,第一部分為訓練,第二部分為抓取。通過頁面的相似 性訓練,可以知道各個類型的頁面應該在哪些頁面元素上觸發何種事件。訓練完 成后即可以進行抓取,本發明的抓取過程可以采用多種抓取策略,本實施例中的 寬度優先抓取方法中,每次觸發完一個事件后,都會回退到原頁面,直到原頁面 所有需要觸發的事件觸發完為止,再去處理其他的頁面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910090288.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:自由伸縮廣告旗
- 下一篇:自動暖瓶速熱器控制裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





