[發明專利]網頁的爬取方法和裝置在審

申請號：	201710591483.0	申請日：	2017-07-19
公開（公告）號：	CN110020064A	公開（公告）日：	2019-07-16
發明（設計）人：	邢琰	申請（專利權）人：	北京國雙科技有限公司
主分類號：	G06F16/953	分類號：	G06F16/953;G06F16/951;G06F16/955;G06F16/958
代理公司：	北京康信知識產權代理有限責任公司 11240	代理人：	趙囡囡;褚敏
地址：	100086 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	判斷結果網頁子網頁集合方法和裝置目錄頁內容頁目標網站網站URL 不一致記錄
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種網頁的爬取方法和裝置。其中，該方法包括：爬取目標網站的根URL下的子網頁URL；利用第一集合和第二集合對子網頁URL進行判斷得到第一判斷結果，其中，第一集合用于判斷子網頁URL對應的網頁是否為目錄頁，第二集合用于判斷子網頁URL對應的網頁是否為內容頁；利用預定類對子網頁URL進行判斷得到第二判斷結果，其中，第二判斷結果用于指示子網頁URL為目錄頁或者內容頁；如果第一判斷結果和第二判斷結果一致，則按照第一判斷結果繼續對子網頁URL進行爬取；如果第一判斷結果和第二判斷結果不一致，則記錄子網頁URL。解決了確定網站URL規則的效率低的技術問題，提高了處理的效率。

技術領域

本發明涉及互聯網領域，具體而言，涉及一種網頁的爬取方法和裝置。

背景技術

網絡爬蟲是一種按照一定的規則自動地抓取萬維網特定信息的程序，在實際的爬蟲系統中，往往有爬取深度的限制和判斷內容頁或目錄頁的要求(內容頁是爬蟲要爬取的頁面，例如網站上的一篇文章，報道等；目錄頁是內容頁的索引，目錄頁的每一個鏈接指向一個內容頁)。爬蟲系統中判斷內容頁和目錄頁的邏輯比較簡單，但是網站的開發人員對URL結構的設計有很大的不確定性(例如，相關的URL結構：http://www.ccszf.gov.cn/ccszf/1/tindex.shtml)，同樣一個URL結構在一個網站中為內容頁，而在另一個網站中就為目錄頁，爬蟲系統中對內容頁和目錄頁的判斷不可能包含所有的網站，因此，相關技術經常會出現內容頁和目錄頁判斷錯誤的情況。當在判斷錯誤的情況下，會導致系統做出錯誤的處理(例如，如果將內容頁錯誤判斷為目錄頁，在到達爬取深度的最大值時就會放棄目錄頁，不再進行爬取，導致內容頁缺失；而如果將目錄頁錯誤判斷為內容頁，內容頁是不會抽取鏈接的，這樣就失去了目錄頁的鏈接)。除此之外，在相關技術中，爬蟲系統對待爬取網站的URL規則的判斷是通過人工的方式進行添加，具體是人工篩選將不符合規則的網站的URL添加到一個預定類中，在爬蟲系統的程序運行時，會通過預定類給出的判斷結果得到是內容頁還是目錄頁。這種純人工的方式，需要用戶去點開網站中的所有URL結構的網頁并對其進行人工判斷。在找到規則后，還需要人工在預定類中添加判斷語句。由于每個網站的URL規則不盡相同，所以添加的規則也不同。種子的個數一旦增多將大大增加工作量。

針對上述的確定網站URL規則的效率低問題，目前尚未提出有效的解決方案。

發明內容

本發明實施例提供了一種網頁的爬取方法和裝置，以至少解決確定網站URL規則的效率低的技術問題。

根據本發明實施例的一個方面，提供了一種網頁的爬取方法，包括：爬取目標網站的根URL下的子網頁URL；利用第一集合和第二集合對所述子網頁URL進行判斷得到第一判斷結果，其中，所述第一集合用于判斷所述子網頁URL對應的網頁是否為目錄頁，所述第二集合用于判斷所述子網頁URL對應的網頁是否為內容頁；利用預定類對所述子網頁URL進行判斷得到第二判斷結果，其中，所述第二判斷結果用于指示所述子網頁URL為所述目錄頁或者所述內容頁；如果所述第一判斷結果和所述第二判斷結果一致，則按照所述第一判斷結果繼續對所述子網頁URL進行爬取；如果所述第一判斷結果和所述第二判斷結果不一致，則記錄所述子網頁URL。

可選地，利用第一集合和第二集合對所述子網頁URL進行判斷得到第一判斷結果包括：判斷所述子網頁URL被所述第一集合攔截還是被所述第二集合攔截；如果所述子網頁URL被所述第一集合攔截，則確定所述子網頁URL對應的網頁為所述目錄頁；如果所述子網頁URL被所述第二集合攔截，則確定所述子網頁URL對應的網頁為所述內容頁。

可選地，在記錄所述子網頁URL之后，所述方法還包括：按照所述第一判斷結果對所述子網頁URL進行爬取。

可選地，在記錄所述子網頁URL之后，所述方法還包括：向所述預定類中添加邏輯判斷規則，其中，所述邏輯判斷規則用于判斷所述子網頁URL為內容頁或目錄頁；利用所述預定類中的所述邏輯判斷規則將所述子網頁URL判斷為所述第一判斷結果所指示的頁面類型，所述頁面類型是內容頁或者目錄頁。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司，未經北京國雙科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710591483.0/2.html，轉載請聲明來源鉆瓜專利網。