日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種Web數據自動采集的方法在審

專利信息
申請號: 201210490953.1 申請日: 2012-11-27
公開(公告)號: CN103838786A 公開(公告)日: 2014-06-04
發明(設計)人: 蘇曉華;李勇 申請(專利權)人: 大連靈動科技發展有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 大連東方專利代理有限責任公司 21212 代理人: 曲永祚
地址: 116023 遼寧*** 國省代碼: 遼寧;21
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 web 數據 自動 采集 方法
【權利要求書】:

1.一種Web數據自動采集的方法,其特征在于包括以下步驟:

A、網絡機器人技術:

A1、設計網絡機器人工作流程:將機器人以一個或一組URL為瀏覽起點對相應的WWW文檔進行訪問,所述WWW文檔為HTML文檔;

A2、制定網絡機器人設計原則;

A21、制定機器人不包括的項目標準:在服務器上創建一個機器人文本文件,該文本文件中說明網站不能訪問的鏈接和網站拒絕訪問的機器人;

A22、制定機器人META標簽:即用戶在頁面中加入一個META標簽,該META標簽允許一個頁面的所有者指定是否允許機器人程序來索引頁面或者從頁面中提取鏈接;

A3、深度優先搜索策略和廣度優先搜索策略;

A31、深度優先搜索策略是從起始結點出發,對第一個文檔進行分析后取回第一個鏈接所指向的頁面,對該頁面進行分析后再取回其第一個鏈接所指向的文檔,反復執行直至搜索到不包含任何超級鏈接的文檔為止,將其定義為一個完整的鏈,然后返回某一文檔,繼續選擇該文檔中的其余超級鏈接,搜索結束的標志是全部超級鏈接已搜索完畢;

A32、廣度優先搜索策略是對第一個文檔進行分析后,將該Web頁面中所有超級鏈接搜索完畢,再繼續下一層的搜索,直到最底層的搜索完成為止;

A4、網絡陷阱;

A41、在訪問新URL前與待搜索和已搜索URL對列列表中的URL進行比較,該比較為URL對象間的比較,將URL對列列表中不包含的URL添加到待搜索的URL列表,以避免掉進網絡陷阱;

A42、提取Web文檔的超鏈接時忽略所有設有參數的URL;

A43、限制機器人搜索深度;當到達閾值搜索深度后停止向下搜索,其中每進入到下一級子鏈接則表明到達了一個新的搜索深度;或者設定訪問Web服務器的最大時間長度,當機器人訪問該Web服務器的第一個網頁時開始計時,經過最大時間長度后,在服務器上爬行的機器人程序即刻斷開與該服務器的所有鏈接;

A5、均衡訪問;設定訪問一個Web服務器的線程最大數并采用等待方式限制機器人程序或進程對特定服務器和網段的訪問頻率;每當機器人程序或進程從一個Web站點取得一個文檔后,該機器人程序或進程將等待一定的間隔再對該Web站點進行新的訪問,根據站點處理能力和網絡通訊能力確定等待時間的長短,下一次訪問該Web站點的時間T1為當前時間T2加上訪問該Web站點所需的時間,訪問該Web站點所需的時間取值為網絡傳輸時間T3乘以已設定系數;

A6、超鏈接提??;機器人程序在獲取URL鏈接的同時持續對得到的鏈接所對應的Web源文檔進行數據采集,并將Web源文檔轉換為字符流的形式;

B、網頁數據提取技術;

B1、網頁純文本的提??;對獲取的HTML源文件進行過濾處理并刪掉其中的標簽控制符提取文本信息,過濾網頁數據后統一網頁數據字符格式;

B2、對文本中的特殊字符進行分析并處理。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連靈動科技發展有限公司,未經大連靈動科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210490953.1/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 91看片app| 国产亚洲欧美日韩电影网| 日韩欧美中文字幕精品| 欧美一区二区免费视频| 国产精品视频1区| 日韩一级片免费视频| 国产精品久久久久久久新郎| 中文字幕亚洲欧美日韩在线不卡| 久久国产欧美日韩精品| 国产精品免费不卡| 午夜免费av电影| 国产欧美一区二区精品性色超碰| 国产精品18久久久久久白浆动漫| 蜜臀久久99精品久久久| 欧美日韩九区| 亚洲欧美中日精品高清一区二区 | 日韩av在线播| 日日夜夜精品免费看| 秋霞av电影网| 99久久国产综合精品色伊| 国产午夜精品一区| 欧美一区二区三区免费视频| 欧美午夜看片在线观看字幕| 91一区在线观看| 日本精品一区二区三区视频| 狠狠色噜噜狠狠狠合久| 中文字幕在线视频一区二区| 一区二区三区国产精品| 亚洲精品卡一卡二| 97一区二区国产好的精华液| 99久久国产综合精品女不卡| 丝袜脚交一区二区| 久久黄色精品视频| 伊人精品一区二区三区| 夜夜夜夜曰天天天天拍国产| 国产欧美日韩精品一区二区图片 | 日韩精品一区二区中文字幕| 日韩欧美国产另类| 国产欧美精品一区二区三区-老狼| 91丝袜国产在线播放| 国产欧美日韩另类| 51区亚洲精品一区二区三区| 91精品一区二区在线观看| 欧美精品五区| 日韩av在线一区| 国产91清纯白嫩初高中在线观看| 一区二区免费在线观看| 亚洲乱亚洲乱妇50p| 日本一区二区在线电影| 狠狠躁狠狠躁视频专区| 欧洲精品一区二区三区久久| 国产二区不卡| 国产91高清| 欧美日韩三区二区| 日韩av在线中文| 日韩av三区| 国产一区二区三区影院| 狠狠色丁香久久婷婷综| 国内少妇自拍视频一区| 午夜影院试看五分钟| 亚洲欧美制服丝腿| 久久天天躁狠狠躁亚洲综合公司| 国产精品理人伦一区二区三区 | 久久国产激情视频| 日韩欧美国产第一页| 91av中文字幕| 国产精品久久久久99| 国产黄色网址大全| 夜夜躁狠狠躁日日躁2024| 亚洲一区欧美| 日韩欧美国产精品一区| 欧美性受xxxx狂喷水| 国产精品18久久久久白浆| 国产精品9区| 久99久精品| 国偷自产一区二区三区在线观看 | 99久久精品一区字幕狠狠婷婷| 亚洲精品日韩在线| 欧美精品一区二区三区在线四季| 久久国产精品欧美| 国产一区2区3区| 亚洲欧洲精品一区二区三区不卡|