[發明專利]一種Web數據自動采集的方法在審
| 申請號: | 201210490953.1 | 申請日: | 2012-11-27 |
| 公開(公告)號: | CN103838786A | 公開(公告)日: | 2014-06-04 |
| 發明(設計)人: | 蘇曉華;李勇 | 申請(專利權)人: | 大連靈動科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 曲永祚 |
| 地址: | 116023 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 web 數據 自動 采集 方法 | ||
1.一種Web數據自動采集的方法,其特征在于包括以下步驟:
A、網絡機器人技術:
A1、設計網絡機器人工作流程:將機器人以一個或一組URL為瀏覽起點對相應的WWW文檔進行訪問,所述WWW文檔為HTML文檔;
A2、制定網絡機器人設計原則;
A21、制定機器人不包括的項目標準:在服務器上創建一個機器人文本文件,該文本文件中說明網站不能訪問的鏈接和網站拒絕訪問的機器人;
A22、制定機器人META標簽:即用戶在頁面中加入一個META標簽,該META標簽允許一個頁面的所有者指定是否允許機器人程序來索引頁面或者從頁面中提取鏈接;
A3、深度優先搜索策略和廣度優先搜索策略;
A31、深度優先搜索策略是從起始結點出發,對第一個文檔進行分析后取回第一個鏈接所指向的頁面,對該頁面進行分析后再取回其第一個鏈接所指向的文檔,反復執行直至搜索到不包含任何超級鏈接的文檔為止,將其定義為一個完整的鏈,然后返回某一文檔,繼續選擇該文檔中的其余超級鏈接,搜索結束的標志是全部超級鏈接已搜索完畢;
A32、廣度優先搜索策略是對第一個文檔進行分析后,將該Web頁面中所有超級鏈接搜索完畢,再繼續下一層的搜索,直到最底層的搜索完成為止;
A4、網絡陷阱;
A41、在訪問新URL前與待搜索和已搜索URL對列列表中的URL進行比較,該比較為URL對象間的比較,將URL對列列表中不包含的URL添加到待搜索的URL列表,以避免掉進網絡陷阱;
A42、提取Web文檔的超鏈接時忽略所有設有參數的URL;
A43、限制機器人搜索深度;當到達閾值搜索深度后停止向下搜索,其中每進入到下一級子鏈接則表明到達了一個新的搜索深度;或者設定訪問Web服務器的最大時間長度,當機器人訪問該Web服務器的第一個網頁時開始計時,經過最大時間長度后,在服務器上爬行的機器人程序即刻斷開與該服務器的所有鏈接;
A5、均衡訪問;設定訪問一個Web服務器的線程最大數并采用等待方式限制機器人程序或進程對特定服務器和網段的訪問頻率;每當機器人程序或進程從一個Web站點取得一個文檔后,該機器人程序或進程將等待一定的間隔再對該Web站點進行新的訪問,根據站點處理能力和網絡通訊能力確定等待時間的長短,下一次訪問該Web站點的時間T1為當前時間T2加上訪問該Web站點所需的時間,訪問該Web站點所需的時間取值為網絡傳輸時間T3乘以已設定系數;
A6、超鏈接提??;機器人程序在獲取URL鏈接的同時持續對得到的鏈接所對應的Web源文檔進行數據采集,并將Web源文檔轉換為字符流的形式;
B、網頁數據提取技術;
B1、網頁純文本的提??;對獲取的HTML源文件進行過濾處理并刪掉其中的標簽控制符提取文本信息,過濾網頁數據后統一網頁數據字符格式;
B2、對文本中的特殊字符進行分析并處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連靈動科技發展有限公司,未經大連靈動科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210490953.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:音樂節奏檢測方法及檢測裝置
- 下一篇:一種吊頂打孔機
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





