[發明專利]通用互聯網數據采集方法在審

申請號：	201710433582.6	申請日：	2017-06-09
公開（公告）號：	CN107239558A	公開（公告）日：	2017-10-10
發明（設計）人：	張鵬	申請（專利權）人：	成都布林特信息技術有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京天奇智新知識產權代理有限公司11340	代理人：	楊春
地址：	610000 四川省***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	通用互聯網數據采集方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種通用互聯網數據采集方法，用于使用搜索引擎采集模塊的單個事務對網站基礎數據進行采集，其特征在于，包括：

步驟1.事務從事務隊列中獲取一個非空采集事務對象；如果獲取到空事務對象，則執行事務調度；

步驟2.判斷采集事務的深度是否超過最大的深度；事務從當前采集事務對象中獲取其當前事務對象所在的采集深度；如采集深度未超過系統配置的站點采集深度，則事務繼續步驟3；

步驟3.判斷采集事務的類型；如果是網頁采集事務，則執行步驟4，如果不是網頁采集事務，則執行步驟5；

步驟4.判斷是否是新網頁還是未完成的網頁鏈接；如果此采集事務訪問地址不在歷史抓取庫中，則按新發現的網頁進行采集即步驟7；如果此采集事務在歷史抓取庫中，從歷史抓取庫中獲取此網頁地址的上次采集信息，即訪問地址、訪問時間、頁面大小、更新頻率、根域名；計算上次訪問時間與本次訪問當前時間的間隔時間是否已經超過更新頻率，如果已經超過，則比較當前網頁地址的頁面內容大小與上一次頁面內容大小，如果相等，則不進行采集，如果不相等，則繼續步驟6；

步驟5.如果是媒體或文件鏈接，則執行相應的采集文檔處理；如果是非法鏈接，則記錄此異常鏈接；

步驟6.獲取此網頁鏈接頁面源碼，更新歷史訪問庫中此網頁地址的采集信息，執行步驟8；

步驟7.采集新任務網頁，獲取此網頁鏈接頁面的源碼，在歷史訪問庫中增加此網頁地址的訪問記錄；

步驟8.執行網頁清洗抽取，該網頁清洗抽取步驟用于從網頁源碼中提取指定的特征信息，清除網頁源碼中的無用信息或噪聲數據，然后再從清洗好數據中提取出需要的信息。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于成都布林特信息技術有限公司，未經成都布林特信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710433582.6/1.html，轉載請聲明來源鉆瓜專利網。