[發(fā)明專利]一種Web數(shù)據(jù)自動采集的方法在審
| 申請?zhí)枺?/td> | 201210490953.1 | 申請日: | 2012-11-27 |
| 公開(公告)號: | CN103838786A | 公開(公告)日: | 2014-06-04 |
| 發(fā)明(設(shè)計)人: | 蘇曉華;李勇 | 申請(專利權(quán))人: | 大連靈動科技發(fā)展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 曲永祚 |
| 地址: | 116023 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 web 數(shù)據(jù) 自動 采集 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)采集技術(shù),特別是一種Web數(shù)據(jù)自動采集的方法。
背景技術(shù)
隨著網(wǎng)絡(luò)資源的不斷豐富和網(wǎng)絡(luò)信息量的不斷膨脹,人們對網(wǎng)絡(luò)的依賴性越來越強,卻也給服務(wù)對象從浩如煙海的互聯(lián)網(wǎng)資源中快速找到自己所需的特定資源帶來了不便;信息自古就有無限的價值,隨著時代的不斷發(fā)展,人類不知不覺已經(jīng)來到了信息時代,各行各業(yè)都充斥了無數(shù)的信息,而信息的價值就在于數(shù)據(jù)的流通,如果數(shù)據(jù)能夠及時的流通和傳遞起來,才能發(fā)揮信息真正的不可比擬的價值;在市場經(jīng)濟條件下,采集數(shù)據(jù)已經(jīng)成為重要的工具和手段。
如何從海量信息中收集有價值的數(shù)據(jù)并進行分析研究,形成企業(yè)各種決策的依據(jù),是數(shù)據(jù)采集人員及市場研究人員所面臨的一個問題;要從大量的數(shù)據(jù)中迅速的找到并獲得自己所需要的信息和服務(wù),變得越來越困難,服務(wù)對象在查詢信息時往往會迷失他們的目標或者是得到一些比較偏頗的結(jié)果;數(shù)據(jù)必須經(jīng)過匯總、整合、分析才能產(chǎn)生價值,零散的信息只能是新聞性的,無法體現(xiàn)真正的商業(yè)價值;對于企業(yè)以及信息分析人員來說,一方面要在大量的信息中過濾出有效的價值點,同時又要降低獲取相應(yīng)信息的成本,使信息的實際使用價值大于收集、分析信息等過程所產(chǎn)生的成本,使信息為企業(yè)的決策帶來增值價值。
互聯(lián)網(wǎng)的普及,信息技術(shù)的發(fā)展,形成了大量的信息資源;從海量的信息中抽取出有用的資源,是當前迫切需要解決的問題,而Web頁面所表達的主要信息通常隱藏在大量無關(guān)的結(jié)構(gòu)和文字中,使用戶不能迅速獲取主題信息,限制了Web的可用性,Web自動采集有助于解決這一問題,自動采集省時省力,信息覆蓋面廣,但信息提取質(zhì)量不高,從而將影響查準率;所以大多數(shù)的數(shù)據(jù)采集工作現(xiàn)在都采用自動采集方式;自動采集技術(shù)就是在這種背景下產(chǎn)生的。
發(fā)明內(nèi)容
本發(fā)明針對以上問題的提出,而研制一種通過網(wǎng)絡(luò)機器人技術(shù)和應(yīng)用網(wǎng)頁數(shù)據(jù)提取技術(shù)的Web數(shù)據(jù)自動采集的方法。
本發(fā)明的技術(shù)手段如下:
一種Web數(shù)據(jù)自動采集的方法,其特征在于包括以下步驟:
A、網(wǎng)絡(luò)機器人技術(shù):
A1、設(shè)計網(wǎng)絡(luò)機器人工作流程:將機器人以一個或一組URL為瀏覽起點對相應(yīng)的WWW文檔進行訪問,所述WWW文檔為HTML文檔;
A2、制定網(wǎng)絡(luò)機器人設(shè)計原則;
A21、制定機器人不包括的項目標準:在服務(wù)器上創(chuàng)建一個機器人文本文件,該文本文件中說明網(wǎng)站不能訪問的鏈接和網(wǎng)站拒絕訪問的機器人;
A22、制定機器人META標簽:即用戶在頁面中加入一個META標簽,該META標簽允許一個頁面的所有者指定是否允許機器人程序來索引頁面或者從頁面中提取鏈接;
A3、深度優(yōu)先搜索策略和廣度優(yōu)先搜索策略;
A31、深度優(yōu)先搜索策略是從起始結(jié)點出發(fā),對第一個文檔進行分析后取回第一個鏈接所指向的頁面,對該頁面進行分析后再取回其第一個鏈接所指向的文檔,反復(fù)執(zhí)行直至搜索到不包含任何超級鏈接的文檔為止,將其定義為一個完整的鏈,然后返回某一文檔,繼續(xù)選擇該文檔中的其余超級鏈接,搜索結(jié)束的標志是全部超級鏈接已搜索完畢;
A32、廣度優(yōu)先搜索策略是對第一個文檔進行分析后,將該Web頁面中所有超級鏈接搜索完畢,再繼續(xù)下一層的搜索,直到最底層的搜索完成為止;
A4、網(wǎng)絡(luò)陷阱;
A41、在訪問新URL前與待搜索和已搜索URL對列列表中的URL進行比較,該比較為URL對象間的比較,將URL對列列表中不包含的URL添加到待搜索的URL列表,以避免掉進網(wǎng)絡(luò)陷阱;
A42、提取Web文檔的超鏈接時忽略所有設(shè)有參數(shù)的URL;
A43、限制機器人搜索深度;當?shù)竭_閾值搜索深度后停止向下搜索,其中每進入到下一級子鏈接則表明到達了一個新的搜索深度;或者設(shè)定訪問Web服務(wù)器的最大時間長度,當機器人訪問該Web服務(wù)器的第一個網(wǎng)頁時開始計時,經(jīng)過最大時間長度后,在服務(wù)器上爬行的機器人程序即刻斷開與該服務(wù)器的所有鏈接;
A5、均衡訪問;設(shè)定訪問一個Web服務(wù)器的線程最大數(shù)并采用等待方式限制機器人程序或進程對特定服務(wù)器和網(wǎng)段的訪問頻率;每當機器人程序或進程從一個Web站點取得一個文檔后,該機器人程序或進程將等待一定的間隔再對該Web站點進行新的訪問,根據(jù)站點處理能力和網(wǎng)絡(luò)通訊能力確定等待時間的長短,下一次訪問該Web站點的時間T1為當前時間T2加上訪問該Web站點所需的時間,訪問該Web站點所需的時間取值為網(wǎng)絡(luò)傳輸時間T3乘以已設(shè)定系數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連靈動科技發(fā)展有限公司,未經(jīng)大連靈動科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210490953.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:音樂節(jié)奏檢測方法及檢測裝置
- 下一篇:一種吊頂打孔機
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實現(xiàn)方法
- 一種WEB業(yè)務(wù)實現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點轉(zhuǎn)換為目標web app站點的方法和裝置
- 用于防護WEB漏洞的方法和設(shè)備
- 一種Web攻擊報告生成方法、裝置、設(shè)備及計算機介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





