[發明專利]通用互聯網數據采集方法在審
| 申請號: | 201710433582.6 | 申請日: | 2017-06-09 |
| 公開(公告)號: | CN107239558A | 公開(公告)日: | 2017-10-10 |
| 發明(設計)人: | 張鵬 | 申請(專利權)人: | 成都布林特信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天奇智新知識產權代理有限公司11340 | 代理人: | 楊春 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用 互聯網 數據 采集 方法 | ||
1.一種通用互聯網數據采集方法,用于使用搜索引擎采集模塊的單個事務對網站基礎數據進行采集,其特征在于,包括:
步驟1.事務從事務隊列中獲取一個非空采集事務對象;如果獲取到空事務對象,則執行事務調度;
步驟2.判斷采集事務的深度是否超過最大的深度;事務從當前采集事務對象中獲取其當前事務對象所在的采集深度;如采集深度未超過系統配置的站點采集深度,則事務繼續步驟3;
步驟3.判斷采集事務的類型;如果是網頁采集事務,則執行步驟4,如果不是網頁采集事務,則執行步驟5;
步驟4.判斷是否是新網頁還是未完成的網頁鏈接;如果此采集事務訪問地址不在歷史抓取庫中,則按新發現的網頁進行采集即步驟7;如果此采集事務在歷史抓取庫中,從歷史抓取庫中獲取此網頁地址的上次采集信息,即訪問地址、訪問時間、頁面大小、更新頻率、根域名;計算上次訪問時間與本次訪問當前時間的間隔時間是否已經超過更新頻率,如果已經超過,則比較當前網頁地址的頁面內容大小與上一次頁面內容大小,如果相等,則不進行采集,如果不相等,則繼續步驟6;
步驟5.如果是媒體或文件鏈接,則執行相應的采集文檔處理;如果是非法鏈接,則記錄此異常鏈接;
步驟6.獲取此網頁鏈接頁面源碼,更新歷史訪問庫中此網頁地址的采集信息,執行步驟8;
步驟7.采集新任務網頁,獲取此網頁鏈接頁面的源碼,在歷史訪問庫中增加此網頁地址的訪問記錄;
步驟8.執行網頁清洗抽取,該網頁清洗抽取步驟用于從網頁源碼中提取指定的特征信息,清除網頁源碼中的無用信息或噪聲數據,然后再從清洗好數據中提取出需要的信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都布林特信息技術有限公司,未經成都布林特信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710433582.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





