[發明專利]一種網絡信息采集方法及裝置在審

申請號：	201711308223.4	申請日：	2017-12-11
公開（公告）號：	CN110020081A	公開（公告）日：	2019-07-16
發明（設計）人：	王雅文	申請（專利權）人：	鎮江共遠軟件開發有限公司
主分類號：	G06F16/953	分類號：	G06F16/953;G06F16/955
代理公司：	暫無信息	代理人：	暫無信息
地址：	212000 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網絡信息抓取屬性關系采集網絡信息采集目標網站子URL 統一資源定位符
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種網絡信息采集方法，其特征在于，包括：

確定待采集網絡信息的目標網站；

獲取對應所述目標網站的統一資源定位符URL；

針對每一個URL，抓取對應的網絡信息，并獲取每一個URL與其子URL的屬性關系；

根據抓取到的網絡信息和獲取的所述屬性關系，確定是否存在漏采信息；

在確定存在漏采信息時，對漏采信息進行重新采集。

2.根據權利要求1所述的方法，其特征在于，所述獲取對應所述目標網站的統一資源定位符URL，包括：

確定所述目標網站的入口URL；

根據所述入口URL，確定對應所述目標網站的URL抽取規則；

利用所述URL抽取規則，執行如下步驟：

S0：將所述入口URL作為第一URL，執行S1；

S1：抽取與第一URL相關的URL，將抽取到的URL作為第一URL，并執行S1，直到未抽取到與第一URL相關的URL。

3.根據權利要求1所述的方法，其特征在于，

每一個目標URL與其子URL的屬性關系包括：目標URL、目標URL對應的各個子URL、以及每一個子URL對應的深度、目標URL的類型和該目標URL對應的每一個子URL的類型；

所述類型至少包括：導航頁、列表頁和詳情頁中的至少一種。

4.根據權利要求1所述的方法，其特征在于，所述根據抓取到的網絡信息和獲取的所述屬性關系，確定是否存在漏采信息，包括：

根據所述屬性關系，確定每一個當前URL對應的子URL的數量；

并根據抓取到的網絡信息，確定每一個當前URL對應的抓取數量；

針對每一個第二URL，在確定該第二URL對應的子URL的數量和抓取數量之間的差值大于0時，則確定對該第二URL進行網絡信息的抓取時，存在漏采信息。

5.根據權利要求4所述的方法，其特征在于，在確定針對第二URL存在漏采信息時，所述對漏采信息進行重新采集，包括：

根據第二URL對應的子URL以及針對該第二URL抓取到的網絡信息，確定未進行網絡信息抓取的子URL；

對未進行網絡信息抓取的子URL進行重新采集。

6.一種網絡信息采集裝置，其特征在于，包括：

第一確定單元，用于確定待采集網絡信息的目標網站；

獲取單元，用于獲取對應所述目標網站的統一資源定位符URL；

處理單元，用于針對每一個URL，抓取對應的網絡信息；獲取每一個URL與其子URL的屬性關系；

第二確定單元，用于根據抓取到的網絡信息和獲取的所述屬性關系，確定是否存在漏采信息；

采集單元，用于在確定存在漏采信息時，對漏采信息進行重新采集。

7.根據權利要求6所述的網絡信息采集裝置，其特征在于，所述獲取單元，具體用于：

確定所述目標網站的入口URL；

根據所述入口URL，確定對應所述目標網站的URL抽取規則；

利用所述URL抽取規則，執行如下步驟：

S0：將所述入口URL作為第一URL，執行S1；

S1：抽取與第一URL相關的URL，將抽取到的URL作為第一URL，并執行S1，直到未抽取到與第一URL相關的URL。

8.根據權利要求6所述的網絡信息采集裝置，其特征在于，

所述類型至少包括：導航頁、列表頁和詳情頁中的至少一種。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于鎮江共遠軟件開發有限公司，未經鎮江共遠軟件開發有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711308223.4/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】