[發明專利]網頁爬取方法及裝置有效

申請號：	201610082183.5	申請日：	2016-02-05
公開（公告）號：	CN107045507B	公開（公告）日：	2020-08-21
發明（設計）人：	李可欣	申請（專利權）人：	北京國雙科技有限公司
主分類號：	G06F16/951	分類號：	G06F16/951
代理公司：	北京鼎佳達知識產權代理事務所(普通合伙) 11348	代理人：	王偉鋒;劉鐵生
地址：	100083 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網頁方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種網頁爬取方法及裝置，涉及數據處理技術領域，提高了對特定鏈接網頁的爬取效率。本發明的主要技術方案為：爬蟲程序接收爬蟲任務，所述爬蟲任務中包括需要爬取頁面的URL；從預置規則表中獲取與所述URL匹配成功的URL匹配規則對應的區域限制規則，所述預置規則表中存儲有多個URL匹配規則，每個URL匹配規則至少對應一個區域限制規則，所述區域限制規則用于限制所述爬蟲程序在所述URL對應的頁面中將要爬取的鏈接；從所述URL對應的頁面中提取與所述區域限制規則匹配的鏈接；爬取所述提取的鏈接對應的網頁。本發明主要用于爬取網頁數據。

技術領域

本發明涉及數據處理技術領域，尤其涉及一種網頁爬取方法及裝置。

背景技術

爬蟲是人們為了形象描述計算機程序在網絡不斷通過定制的入口網址去提取網頁的鏈接，并根據這些鏈接再度抓取更深的其它未知的鏈接，以此下去，將這樣的程序抓取形為形容成類似爬蟲似的動作，稱之為爬蟲，爬蟲是一種自動獲取網頁內容的程序。

目前，如果爬蟲需要對網頁中的某些特定鏈接進行爬取，比如爬取新浪主頁上的有關于新聞內容的鏈接，現有爬蟲的做法會將新浪主頁中所有的鏈接全部抽取出來，然后對屬于新聞內容的鏈接做出特殊標記，在做出特殊標簽之后，爬取新浪主頁中全部鏈接對應的網頁內容，最后檢索出帶有特殊標記鏈接對應的網頁內容，以此實現對網頁中的某些特定鏈接進行爬取，因此現有爬取網頁中特定鏈接對應內容的效率較低。

發明內容

鑒于上述問題，提出了本發明，以便提供一種克服上述問題或者至少部分地解決上述問題的網頁爬取方法及裝置。

為達到上述目的，本發明主要提供如下技術方案：

一方面，本發明實施例提供了一種網頁爬取方法，該方法包括：

爬蟲程序接收爬蟲任務，所述爬蟲任務中包括需要爬取頁面的URL；

從預置規則表中獲取與所述URL匹配成功的URL匹配規則對應的區域限制規則，所述預置規則表中存儲有多個URL匹配規則，每個URL匹配規則至少對應一個區域限制規則，所述區域限制規則用于限制所述爬蟲程序在所述URL對應的頁面中將要爬取的鏈接；

從所述URL對應的頁面中提取與所述區域限制規則匹配的鏈接；

爬取所述提取的鏈接對應的網頁。

另一方面，本發明實施例還提供一種網頁爬取裝置，該裝置包括：

接收單元，用于接收爬蟲任務，所述爬蟲任務中包括需要爬取頁面的URL；

獲取單元，用于從預置規則表中獲取與所述URL匹配成功的URL匹配規則對應的區域限制規則，所述預置規則表中存儲有多個URL匹配規則，每個URL匹配規則至少對應一個區域限制規則，所述區域限制規則用于限制所述爬蟲程序在所述URL對應的頁面中將要爬取的鏈接；

提取單元，用于從所述URL對應的頁面中提取與所述區域限制規則匹配的鏈接；