[發明專利]一種網絡信息采集方法及裝置在審
| 申請號: | 201711308223.4 | 申請日: | 2017-12-11 |
| 公開(公告)號: | CN110020081A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 王雅文 | 申請(專利權)人: | 鎮江共遠軟件開發有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/955 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡信息 抓取 屬性關系 采集 網絡信息采集 目標網站 子URL 統一資源定位符 | ||
1.一種網絡信息采集方法,其特征在于,包括:
確定待采集網絡信息的目標網站;
獲取對應所述目標網站的統一資源定位符URL;
針對每一個URL,抓取對應的網絡信息,并獲取每一個URL與其子URL的屬性關系;
根據抓取到的網絡信息和獲取的所述屬性關系,確定是否存在漏采信息;
在確定存在漏采信息時,對漏采信息進行重新采集。
2.根據權利要求1所述的方法,其特征在于,所述獲取對應所述目標網站的統一資源定位符URL,包括:
確定所述目標網站的入口URL;
根據所述入口URL,確定對應所述目標網站的URL抽取規則;
利用所述URL抽取規則,執行如下步驟:
S0:將所述入口URL作為第一URL,執行S1;
S1:抽取與第一URL相關的URL,將抽取到的URL作為第一URL,并執行S1,直到未抽取到與第一URL相關的URL。
3.根據權利要求1所述的方法,其特征在于,
每一個目標URL與其子URL的屬性關系包括:目標URL、目標URL對應的各個子URL、以及每一個子URL對應的深度、目標URL的類型和該目標URL對應的每一個子URL的類型;
所述類型至少包括:導航頁、列表頁和詳情頁中的至少一種。
4.根據權利要求1所述的方法,其特征在于,所述根據抓取到的網絡信息和獲取的所述屬性關系,確定是否存在漏采信息,包括:
根據所述屬性關系,確定每一個當前URL對應的子URL的數量;
并根據抓取到的網絡信息,確定每一個當前URL對應的抓取數量;
針對每一個第二URL,在確定該第二URL對應的子URL的數量和抓取數量之間的差值大于0時,則確定對該第二URL進行網絡信息的抓取時,存在漏采信息。
5.根據權利要求4所述的方法,其特征在于,在確定針對第二URL存在漏采信息時,所述對漏采信息進行重新采集,包括:
根據第二URL對應的子URL以及針對該第二URL抓取到的網絡信息,確定未進行網絡信息抓取的子URL;
對未進行網絡信息抓取的子URL進行重新采集。
6.一種網絡信息采集裝置,其特征在于,包括:
第一確定單元,用于確定待采集網絡信息的目標網站;
獲取單元,用于獲取對應所述目標網站的統一資源定位符URL;
處理單元,用于針對每一個URL,抓取對應的網絡信息;獲取每一個URL與其子URL的屬性關系;
第二確定單元,用于根據抓取到的網絡信息和獲取的所述屬性關系,確定是否存在漏采信息;
采集單元,用于在確定存在漏采信息時,對漏采信息進行重新采集。
7.根據權利要求6所述的網絡信息采集裝置,其特征在于,所述獲取單元,具體用于:
確定所述目標網站的入口URL;
根據所述入口URL,確定對應所述目標網站的URL抽取規則;
利用所述URL抽取規則,執行如下步驟:
S0:將所述入口URL作為第一URL,執行S1;
S1:抽取與第一URL相關的URL,將抽取到的URL作為第一URL,并執行S1,直到未抽取到與第一URL相關的URL。
8.根據權利要求6所述的網絡信息采集裝置,其特征在于,
每一個目標URL與其子URL的屬性關系包括:目標URL、目標URL對應的各個子URL、以及每一個子URL對應的深度、目標URL的類型和該目標URL對應的每一個子URL的類型;
所述類型至少包括:導航頁、列表頁和詳情頁中的至少一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鎮江共遠軟件開發有限公司,未經鎮江共遠軟件開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711308223.4/1.html,轉載請聲明來源鉆瓜專利網。





