日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種動態腳本網站數據快速收集方法無效

專利信息
申請號: 200910090288.5 申請日: 2009-08-04
公開(公告)號: CN101625692A 公開(公告)日: 2010-01-13
發明(設計)人: 夏冰;高軍;王騰蛟;楊冬青 申請(專利權)人: 北京大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京紀凱知識產權代理有限公司 代理人: 徐 寧;關 暢
地址: 100871北京市海*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 動態 腳本 網站 數據 快速 收集 方法
【說明書】:

技術領域

發明涉及一種網絡數據收集方法,特別是關于一種動態腳本網站數據快速 收集方法。

背景技術

隨著Web?2.0時代的到來,互聯網越來越多地在服務器端和客戶端采用了動 態腳本的方式進行交互。網頁的內容,從以前的靜態方式轉變到從數據庫中獲取 數據動態生成。一方面,網頁主頁面下載到本地后還需要與服務器端再進行數次 交互才能獲得全部的數據,如新浪博客的閱讀數和評論數即為頁面載入后再向服 務器發送請求獲取的;另一方面,網頁內容的鏈接很多也不再是傳統的“<a>”標 簽,而是使用了JavaScript的方式,如騰訊論壇、網易論壇等的翻頁方式是采用 JavaScript來控制的。

爬蟲是搜索引擎的第一步,也是對互聯網數據分析的基礎。傳統爬蟲對待現 有的網站存在先天不足的缺陷:主流搜索引擎對待動態腳本網站一般采取回避、 硬編碼的方式和某些網站預留給搜索引擎接口的三種態度。有研究機構提出了模 擬用戶行為依次點擊頁面所有的頁面元素來進行抓取動態腳本網站的技術,但這 一方式速度很慢,不適合實際應用。

發明內容

針對上述問題,本發明的目的是提供一種可以只通過觸發特定頁面元素上的 特定事件,從而大幅減少了需要觸發的事件數目,提高了動態腳本網站數據的收 集速度的動態腳本網站數據快速收集方法。

為實現上述目的,本發明采取以下技術方案:一種動態腳本網站數據快速收 集方法,其特征在于:它包括以下步驟:i)獲取Index頁面并保存,將Index頁 面加入待處理隊列;ii)判斷所述待處理隊列是否為空,若為空則表明抓取完成, 退出抓取過程;否則從所述待處理隊列中任意選擇一個頁面,利用頁面相似性得 到當前頁面的類型,根據訓練步驟中提取出的所述XPath路徑特征,確定所述類 型需要觸發哪些頁面元素上的哪些事件;iii)判斷所述當前頁面是否有未觸發過 的事件,若沒有則跳轉到步驟ii);否則觸發事件,判斷所述當前頁面是否變化且 變化后的頁面為新頁面,若沒有變化或非新頁面則跳轉到步驟v);否則繼續執行 步驟iv);vi)保存所述新頁面并將所述新頁面加入到步驟i)中的待處理隊列; v)回退到觸發事件前的頁面狀態,并跳轉到步驟iii)。

所述步驟ii)中,所述訓練步驟包括:1)由人工給出各類型頁面成訓練樣本 集合;2)判斷所述訓練樣本集合是否為空,若為空則跳轉到步驟5),否則從所述 訓練樣本集合中選擇一個頁面;3)判斷當前頁面上是否還有未觸發過的事件,若 沒有則跳轉到步驟2);否則觸發當前事件,記錄當前事件的事件信息;4)回退到 觸發事件前的頁面狀態,并跳轉到步驟3);5)根據所述事件信息提取各類型頁面 需觸發事件的XPath路徑特征及事件類型。

所述步驟3)中,所述當前頁面的事件信息包括,事件類型、觸發事件的頁面 元素、頁面是否變化、變化后頁面是哪種類型。

所述步驟5)中,所述XPath路徑特征的提取方法如下:被歸約的XPath路徑 經過的頁面元素名稱必須相同,對頁面元素的序號進行歸約。

本發明由于采取以上技術方案,其具有以下優點:1、本發明由于利用了頁面 套用模板的相似性,因此能夠預知在哪些頁面元素上的點擊等事件將導向什么性 質的頁面,從而利用頁面相似性得到的頁面類型確定當前頁面的類型需要觸發哪 些頁面元素上的哪些事件。2、本發明通過對導向需要頁面的頁面元素的XPath進 行歸約,提取出其特征及事件類型,因此只觸發特定頁面元素上的特定事件,大 幅減少了模擬用戶操作的次數,提高了動態腳本網站數據的收集速度。本發明可 應用于各種網絡搜索引擎的網頁抓取工作。

附圖說明

圖1是本發明的抓取數據之前的訓練步驟流程示意圖

圖2是本發明的寬度優先的抓取方法步驟流程示意圖

具體實施方式

下面結合附圖和實施例對本發明進行詳細的描述。

針對于現有技術中對待動態腳本網站采用的不處理、硬編碼方式,本發明方 法的執行過程包括兩部分,第一部分為訓練,第二部分為抓取。通過頁面的相似 性訓練,可以知道各個類型的頁面應該在哪些頁面元素上觸發何種事件。訓練完 成后即可以進行抓取,本發明的抓取過程可以采用多種抓取策略,本實施例中的 寬度優先抓取方法中,每次觸發完一個事件后,都會回退到原頁面,直到原頁面 所有需要觸發的事件觸發完為止,再去處理其他的頁面。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/200910090288.5/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 亚洲欧美国产中文字幕| 欧美久久精品一级c片| 日本不卡精品| 欧美一级免费在线视频| 欧美xxxxhdvideos| 国产欧美日韩一级大片| 亚洲国产精品麻豆| 一区二区欧美视频| 亚洲精品久久久久中文字幕欢迎你 | 亚洲国产精品91| 久久青草欧美一区二区三区| 欧美激情午夜| 久久97国产| 99re6国产露脸精品视频网站| 国产欧美一区二区精品久久| 国产一级二级在线| 91久久国产视频| 蜜臀久久99精品久久一区二区| 国产在线一区观看| 欧美精品一区二区三区视频| 午夜欧美a级理论片915影院| 亚洲欧美日本一区二区三区 | 天堂av色婷婷一区二区三区| 国产一区二区资源| 国产大片一区二区三区| 亚洲国产精品二区| 免费的午夜毛片| 精品国产1区2区| 国产精品麻豆一区二区三区| 欧美国产一区二区在线| 午夜影院黄色片| 久久影视一区二区| 国产一区二区三区午夜| 96国产精品视频| 久久久精品视频在线| 奇米色欧美一区二区三区| 国产高清精品一区二区| 日韩中文字幕久久久97都市激情| 国产欧美www| 国产在线一区观看| 国产91刺激对白在线播放| 伊人久久婷婷色综合98网| 一区二区三区四区中文字幕| 欧美二区精品| 久久久精品99久久精品36亚 | 午夜欧美a级理论片915影院| 91精品久久久久久综合五月天| 午夜电影一区二区三区| 强制中出し~大桥未久10| 国产视频二区| 亚洲精品一区,精品二区| 午夜爽爽视频| 日本一区二区三区免费在线| 亚洲国产精品美女| 国产一区二| 久久久久久久久亚洲精品| 制服丝袜二区| 91久久精品国产91久久性色tv| av国产精品毛片一区二区小说| 91超碰caoporm国产香蕉| 热99re久久免费视精品频软件| 日韩av片无码一区二区不卡电影| 91人人爽人人爽人人精88v| 国产亚洲精品久久午夜玫瑰园| 午夜欧美a级理论片915影院| 欧美一区二区激情三区| 国产午夜精品av一区二区麻豆 | 精品国产乱码久久久久久虫虫| 欧美一区二区三区四区五区六区| 久久一区二区三区欧美| 99欧美精品| 性色av色香蕉一区二区| 欧美网站一区二区三区| 日韩精品久久一区二区| 自偷自拍亚洲| 亚洲乱在线| 91国偷自产一区二区介绍| 国产一区二区三区乱码| 精品中文久久| 97精品超碰一区二区三区| 欧美一级免费在线视频| 日本伦精品一区二区三区免费| 手机看片国产一区| 久久96国产精品久久99软件| 国产色99| 91精品福利观看| 欧美亚洲精品suv一区| 国产精品99一区二区三区| 日韩午夜三级| 国产精品麻豆自拍| 午夜影院色| 亚洲欧洲国产伦综合| 国产无套精品久久久久久| 亚洲欧美日韩三区| 一区二区中文字幕在线观看| 精品久久国产视频| 日本午夜无人区毛片私人影院| 国产女人与拘做受免费视频| 国产欧美一区二区三区沐欲| 国产精品一二三在线观看| 日韩精品免费一区二区中文字幕| 精品一区中文字幕| 亚洲欧美日韩精品在线观看| 日本不卡精品| 91精品一区| 亚洲精华国产欧美| 午夜激情在线播放| 精品国产亚洲一区二区三区| 久久精品视频偷拍| 一区二区三区国产精品视频| 亚洲国产欧美一区| 国产91免费观看| 91秒拍国产福利一区| 91精品一区二区中文字幕| 福利片午夜| 91亚洲欧美日韩精品久久奇米色| 国产无套精品一区二区| 99精品一区| 国产一级精品在线观看| 国产精品一区二区在线观看免费| 欧美一区二区三区免费观看视频 | 欧美日韩激情在线| 国产欧美视频一区二区| 一区二区午夜| 欧美在线播放一区| 国产一卡二卡在线播放| 欧美日韩亚洲三区| 一区二区三区欧美精品| 国产麻豆一区二区| 国产一区二区三级| 欧美一区二区三区久久综合| 亚洲欧美一卡二卡| 国产精品久久国产精品99| 国产精品videossex国产高清| 久久久久国产亚洲日本| 欧美一区二区久久久| 亚洲一二三在线| 国产91视频一区| 久久精品国产精品亚洲红杏| 99精品国产免费久久| 亚洲精品乱码久久久久久写真| 久久第一区| 日韩国产精品久久久久久亚洲| 91超碰caoporm国产香蕉| 挺进警察美妇后菊| 日韩亚洲欧美一区二区| 99国产精品九九视频免费看| 日本二区在线播放| 亚洲欧美另类综合| 中文字幕欧美另类精品亚洲| 久久一区欧美| 久久精品手机视频| 狠狠色狠狠色合久久伊人| 国产日韩欧美一区二区在线观看 | 亚洲精品久久久久久动漫| 国产精品综合在线观看| 国产欧美亚洲精品第一区软件| 亚洲福利视频一区| 911久久香蕉国产线看观看| 久免费看少妇高潮a级特黄按摩| 亚洲一区二区福利视频| 国产一区免费播放| 国产日韩欧美一区二区在线播放| 亚洲欧洲精品一区二区三区不卡| 激情久久一区二区三区| 欧美色综合天天久久| 国产1区2区3区| 国内精品久久久久影院日本| 91精品国模一区二区三区| 激情久久精品| 国产在线观看二区| 国产精品久久久爽爽爽麻豆色哟哟| 国产在线欧美在线| 国产一区=区| 97精品国产aⅴ7777| 日本一区午夜艳熟免费| 97久久超碰国产精品| 国产91色综合| 国产精品久久亚洲7777| 久久国产精品-国产精品| 国产乱人伦精品一区二区 | 亚洲国产另类久久久精品性| 国产一级片一区| 亚洲国产精品国自产拍av| 久久亚洲精品国产一区最新章节| 精品国产免费久久| 久久99久久99精品蜜柚传媒| 国产精品19乱码一区二区三区| 亚洲欧美一卡二卡| 丰满岳妇伦4在线观看| 97人人澡人人添人人爽超碰| 日本一二三区视频| 午夜影院激情| 中文字幕在线一二三区| 国语对白一区二区三区| 91黄在线看| 久久99精品久久久久国产越南| 欧美日韩国产91| 国产欧美综合一区| 日韩精品少妇一区二区在线看| 色就是色欧美亚洲| 少妇**毛片| 欧美日韩国产精品一区二区三区| 中文字幕欧美久久日高清| 午夜电影一区二区三区| 日韩精品一区在线观看| 夜色av网站| 午夜特片网| 久久免费福利视频| 国产一区日韩精品| 国产69精品久久久久999小说| 欧美日韩国产在线一区| 91精品久久久久久| 久久影视一区二区| 日韩亚洲欧美一区二区 | 欧美精品在线一区二区| 一级黄色片免费网站| 国产va亚洲va在线va| 久久免费视频一区| 午夜a电影| 国产精品久久久久久久四虎电影| 自偷自拍亚洲| 精品国产区| 国产一区三区四区| 欧美激情视频一区二区三区免费| 欧美一区二区三区免费在线观看| 香蕉av一区二区三区| 欧美片一区二区| 国产在线一二区| 男女无遮挡xx00动态图120秒| 中文字幕久久精品一区| 狠狠躁夜夜躁2020| 亚洲少妇一区二区三区| 日本一二三区视频| 国产欧美日韩一区二区三区四区| 粉嫩久久99精品久久久久久夜| 精品999久久久| 丰满岳乱妇bd在线观看k8| 久久国产精久久精产国| 国产一区二区三区精品在线| 久久久久久中文字幕| 日韩欧美一区精品| 97人人添人人爽一区二区三区| 亚洲精品www久久久| 欧美午夜看片在线观看字幕| 欧美日韩国产欧美|