日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種Web數(shù)據(jù)自動采集的方法在審

專利信息
申請?zhí)枺?/td> 201210490953.1 申請日: 2012-11-27
公開(公告)號: CN103838786A 公開(公告)日: 2014-06-04
發(fā)明(設(shè)計)人: 蘇曉華;李勇 申請(專利權(quán))人: 大連靈動科技發(fā)展有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 大連東方專利代理有限責任公司 21212 代理人: 曲永祚
地址: 116023 遼寧*** 國省代碼: 遼寧;21
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 web 數(shù)據(jù) 自動 采集 方法
【說明書】:

技術(shù)領(lǐng)域

發(fā)明涉及一種數(shù)據(jù)采集技術(shù),特別是一種Web數(shù)據(jù)自動采集的方法。

背景技術(shù)

隨著網(wǎng)絡(luò)資源的不斷豐富和網(wǎng)絡(luò)信息量的不斷膨脹,人們對網(wǎng)絡(luò)的依賴性越來越強,卻也給服務(wù)對象從浩如煙海的互聯(lián)網(wǎng)資源中快速找到自己所需的特定資源帶來了不便;信息自古就有無限的價值,隨著時代的不斷發(fā)展,人類不知不覺已經(jīng)來到了信息時代,各行各業(yè)都充斥了無數(shù)的信息,而信息的價值就在于數(shù)據(jù)的流通,如果數(shù)據(jù)能夠及時的流通和傳遞起來,才能發(fā)揮信息真正的不可比擬的價值;在市場經(jīng)濟條件下,采集數(shù)據(jù)已經(jīng)成為重要的工具和手段。

如何從海量信息中收集有價值的數(shù)據(jù)并進行分析研究,形成企業(yè)各種決策的依據(jù),是數(shù)據(jù)采集人員及市場研究人員所面臨的一個問題;要從大量的數(shù)據(jù)中迅速的找到并獲得自己所需要的信息和服務(wù),變得越來越困難,服務(wù)對象在查詢信息時往往會迷失他們的目標或者是得到一些比較偏頗的結(jié)果;數(shù)據(jù)必須經(jīng)過匯總、整合、分析才能產(chǎn)生價值,零散的信息只能是新聞性的,無法體現(xiàn)真正的商業(yè)價值;對于企業(yè)以及信息分析人員來說,一方面要在大量的信息中過濾出有效的價值點,同時又要降低獲取相應(yīng)信息的成本,使信息的實際使用價值大于收集、分析信息等過程所產(chǎn)生的成本,使信息為企業(yè)的決策帶來增值價值。

互聯(lián)網(wǎng)的普及,信息技術(shù)的發(fā)展,形成了大量的信息資源;從海量的信息中抽取出有用的資源,是當前迫切需要解決的問題,而Web頁面所表達的主要信息通常隱藏在大量無關(guān)的結(jié)構(gòu)和文字中,使用戶不能迅速獲取主題信息,限制了Web的可用性,Web自動采集有助于解決這一問題,自動采集省時省力,信息覆蓋面廣,但信息提取質(zhì)量不高,從而將影響查準率;所以大多數(shù)的數(shù)據(jù)采集工作現(xiàn)在都采用自動采集方式;自動采集技術(shù)就是在這種背景下產(chǎn)生的。

發(fā)明內(nèi)容

本發(fā)明針對以上問題的提出,而研制一種通過網(wǎng)絡(luò)機器人技術(shù)和應(yīng)用網(wǎng)頁數(shù)據(jù)提取技術(shù)的Web數(shù)據(jù)自動采集的方法。

本發(fā)明的技術(shù)手段如下:

一種Web數(shù)據(jù)自動采集的方法,其特征在于包括以下步驟:

A、網(wǎng)絡(luò)機器人技術(shù):

A1、設(shè)計網(wǎng)絡(luò)機器人工作流程:將機器人以一個或一組URL為瀏覽起點對相應(yīng)的WWW文檔進行訪問,所述WWW文檔為HTML文檔;

A2、制定網(wǎng)絡(luò)機器人設(shè)計原則;

A21、制定機器人不包括的項目標準:在服務(wù)器上創(chuàng)建一個機器人文本文件,該文本文件中說明網(wǎng)站不能訪問的鏈接和網(wǎng)站拒絕訪問的機器人;

A22、制定機器人META標簽:即用戶在頁面中加入一個META標簽,該META標簽允許一個頁面的所有者指定是否允許機器人程序來索引頁面或者從頁面中提取鏈接;

A3、深度優(yōu)先搜索策略和廣度優(yōu)先搜索策略;

A31、深度優(yōu)先搜索策略是從起始結(jié)點出發(fā),對第一個文檔進行分析后取回第一個鏈接所指向的頁面,對該頁面進行分析后再取回其第一個鏈接所指向的文檔,反復(fù)執(zhí)行直至搜索到不包含任何超級鏈接的文檔為止,將其定義為一個完整的鏈,然后返回某一文檔,繼續(xù)選擇該文檔中的其余超級鏈接,搜索結(jié)束的標志是全部超級鏈接已搜索完畢;

A32、廣度優(yōu)先搜索策略是對第一個文檔進行分析后,將該Web頁面中所有超級鏈接搜索完畢,再繼續(xù)下一層的搜索,直到最底層的搜索完成為止;

A4、網(wǎng)絡(luò)陷阱;

A41、在訪問新URL前與待搜索和已搜索URL對列列表中的URL進行比較,該比較為URL對象間的比較,將URL對列列表中不包含的URL添加到待搜索的URL列表,以避免掉進網(wǎng)絡(luò)陷阱;

A42、提取Web文檔的超鏈接時忽略所有設(shè)有參數(shù)的URL;

A43、限制機器人搜索深度;當?shù)竭_閾值搜索深度后停止向下搜索,其中每進入到下一級子鏈接則表明到達了一個新的搜索深度;或者設(shè)定訪問Web服務(wù)器的最大時間長度,當機器人訪問該Web服務(wù)器的第一個網(wǎng)頁時開始計時,經(jīng)過最大時間長度后,在服務(wù)器上爬行的機器人程序即刻斷開與該服務(wù)器的所有鏈接;

A5、均衡訪問;設(shè)定訪問一個Web服務(wù)器的線程最大數(shù)并采用等待方式限制機器人程序或進程對特定服務(wù)器和網(wǎng)段的訪問頻率;每當機器人程序或進程從一個Web站點取得一個文檔后,該機器人程序或進程將等待一定的間隔再對該Web站點進行新的訪問,根據(jù)站點處理能力和網(wǎng)絡(luò)通訊能力確定等待時間的長短,下一次訪問該Web站點的時間T1為當前時間T2加上訪問該Web站點所需的時間,訪問該Web站點所需的時間取值為網(wǎng)絡(luò)傳輸時間T3乘以已設(shè)定系數(shù);

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連靈動科技發(fā)展有限公司,未經(jīng)大連靈動科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210490953.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产一区2区3区| 亚洲国产一区二| 欧美在线播放一区| 狠狠色狠狠色综合系列| 亚洲v欧美v另类v综合v日韩v| 91制服诱惑| 私人影院av| 国产精品乱码一区二区三区四川人 | 国产精品久久久不卡| 欧美午夜精品一区二区三区| 免费观看xxxx9999片| 国产一区日韩在线| 国产精品天堂| 高清欧美精品xxxxx在线看| 国产精品欧美久久| 麻豆视频免费播放| free×性护士vidos欧美| 久久婷婷国产香蕉| 日韩欧美高清一区| 欧美日韩一区二区高清| 国产偷自视频区视频一区二区| 岛国黄色网址| 国产一区二区三区色噜噜小说| 好吊妞国产欧美日韩免费观看网站| 国产在线卡一卡二| 国产一区二区视频免费在线观看| 久久精品视频一区二区| xxxxx色| 亚洲少妇一区二区三区| 欧美精品免费视频| 亚洲午夜国产一区99re久久| av不卡一区二区三区| 国产精品高潮在线| 亚洲美女在线一区| 久久二区视频| 久热精品视频在线| 欧美激情午夜| 国产亚洲精品久久午夜玫瑰园| 欧美日韩激情一区| 亚洲少妇一区二区三区| 亚洲精品国产suv| 亚洲精品一区,精品二区| 国产偷窥片| 免费精品一区二区三区视频日产| 国内少妇自拍视频一区| 亚洲精品一品区二品区三品区 | 偷拍精品一区二区三区| 日韩国产精品久久| 国产精品视频二区不卡| 精品国产一区二区三区免费| 日韩av在线高清| 夜夜嗨av一区二区三区中文字幕| 久久久久国产精品嫩草影院| 午夜免费片| 国产黄色一区二区三区| 日本精品在线一区| 久久不卡一区| 亚洲精品久久久久久久久久久久久久| 国产色午夜婷婷一区二区三区| 国产特级淫片免费看| 国产日本欧美一区二区三区| 91精品国产综合久久国产大片| 一区二区三区在线观看国产| 国产精品9区| 68精品国产免费久久久久久婷婷| 日韩精品久久久久久久的张开腿让 | 99国产午夜精品一区二区天美| 97精品国产aⅴ7777| 鲁一鲁一鲁一鲁一鲁一av| 日韩中文字幕亚洲欧美| 一区不卡av| 少妇高潮大叫喷水| 88888888国产一区二区| 一区二区三区欧美视频| 国产午夜一级片| 亚洲精品国产精品国产| 手机看片国产一区| 狠狠色狠狠色综合系列| 夜夜嗨av色一区二区不卡| 最新日韩一区| 国产午夜精品免费一区二区三区视频 | 国模精品免费看久久久|