[發明專利]網頁爬取方法及裝置有效
| 申請號: | 201610082183.5 | 申請日: | 2016-02-05 |
| 公開(公告)號: | CN107045507B | 公開(公告)日: | 2020-08-21 |
| 發明(設計)人: | 李可欣 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 方法 裝置 | ||
本發明公開了一種網頁爬取方法及裝置,涉及數據處理技術領域,提高了對特定鏈接網頁的爬取效率。本發明的主要技術方案為:爬蟲程序接收爬蟲任務,所述爬蟲任務中包括需要爬取頁面的URL;從預置規則表中獲取與所述URL匹配成功的URL匹配規則對應的區域限制規則,所述預置規則表中存儲有多個URL匹配規則,每個URL匹配規則至少對應一個區域限制規則,所述區域限制規則用于限制所述爬蟲程序在所述URL對應的頁面中將要爬取的鏈接;從所述URL對應的頁面中提取與所述區域限制規則匹配的鏈接;爬取所述提取的鏈接對應的網頁。本發明主要用于爬取網頁數據。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種網頁爬取方法及裝置。
背景技術
爬蟲是人們為了形象描述計算機程序在網絡不斷通過定制的入口網址去提取網頁的鏈接,并根據這些鏈接再度抓取更深的其它未知的鏈接,以此下去,將這樣的程序抓取形為形容成類似爬蟲似的動作,稱之為爬蟲,爬蟲是一種自動獲取網頁內容的程序。
目前,如果爬蟲需要對網頁中的某些特定鏈接進行爬取,比如爬取新浪主頁上的有關于新聞內容的鏈接,現有爬蟲的做法會將新浪主頁中所有的鏈接全部抽取出來,然后對屬于新聞內容的鏈接做出特殊標記,在做出特殊標簽之后,爬取新浪主頁中全部鏈接對應的網頁內容,最后檢索出帶有特殊標記鏈接對應的網頁內容,以此實現對網頁中的某些特定鏈接進行爬取,因此現有爬取網頁中特定鏈接對應內容的效率較低。
發明內容
鑒于上述問題,提出了本發明,以便提供一種克服上述問題或者至少部分地解決上述問題的網頁爬取方法及裝置。
為達到上述目的,本發明主要提供如下技術方案:
一方面,本發明實施例提供了一種網頁爬取方法,該方法包括:
爬蟲程序接收爬蟲任務,所述爬蟲任務中包括需要爬取頁面的URL;
從預置規則表中獲取與所述URL匹配成功的URL匹配規則對應的區域限制規則,所述預置規則表中存儲有多個URL匹配規則,每個URL匹配規則至少對應一個區域限制規則,所述區域限制規則用于限制所述爬蟲程序在所述URL對應的頁面中將要爬取的鏈接;
從所述URL對應的頁面中提取與所述區域限制規則匹配的鏈接;
爬取所述提取的鏈接對應的網頁。
另一方面,本發明實施例還提供一種網頁爬取裝置,該裝置包括:
接收單元,用于接收爬蟲任務,所述爬蟲任務中包括需要爬取頁面的URL;
獲取單元,用于從預置規則表中獲取與所述URL匹配成功的URL匹配規則對應的區域限制規則,所述預置規則表中存儲有多個URL匹配規則,每個URL匹配規則至少對應一個區域限制規則,所述區域限制規則用于限制所述爬蟲程序在所述URL對應的頁面中將要爬取的鏈接;
提取單元,用于從所述URL對應的頁面中提取與所述區域限制規則匹配的鏈接;
爬取單元,用于爬取所述提取的鏈接對應的網頁。
借由上述技術方案,本發明實施例提供的技術方案至少具有下列優點:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610082183.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:評估指標獲取方法及裝置
- 下一篇:應用程序的處理方法和裝置





