[發明專利]一種爬取網頁內容的方法和裝置在審
| 申請號: | 201810864353.4 | 申請日: | 2018-08-01 |
| 公開(公告)號: | CN109255063A | 公開(公告)日: | 2019-01-22 |
| 發明(設計)人: | 唐明東;覃柏瑜 | 申請(專利權)人: | 宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 上海衡方知識產權代理有限公司 31234 | 代理人: | 朱穆峰 |
| 地址: | 100022 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁內容 目標頁面 頁面流 計算機可讀存儲介質 方法和裝置 結構化信息 代碼發布 爬蟲系統 任務參數 系統重啟 頁面配置 有效解決 熱部署 下載 調用 配置 維護 | ||
本發明的實施方式提供了一種爬取網頁內容的方法。該方法包括:根據任務參數調用相應的頁面流配置;根據所述頁面流配置下載目標頁面;根據頁面配置提取目標頁面中的結構化信息。本發明有效解決了因代碼發布等維護原因需要系統重啟的問題,實現了爬蟲系統的熱部署能力。此外,本發明的實施方式還提供了一種爬取網頁內容的裝置、一種設備以及一種計算機可讀存儲介質。
技術領域
本發明的實施方式涉及數據挖掘技術領域,更具體地,本發明的實施方式涉及一種爬取網頁內容的方法、一種爬取網頁內容的裝置、一種設備以及一種計算機可讀存儲介質。
背景技術
本部分旨在為權利要求書中陳述的本發明的實施方式提供背景或上下文。此處的描述不因為包括在本部分中就承認是現有技術。
網頁爬蟲(又稱“網絡蜘蛛”等)是一種計算機程序,用于向服務器發起HTTP請求,從而獲得服務器的網頁并解析網頁,得到所需要的信息。
按照對頁面流是否預先定義來劃分,網頁爬蟲可以分為兩類:定向爬蟲和非定向爬蟲。定向爬蟲爬取某些特定網站的幾個特定頁面,并且根據某種業務模型來提取結構化的信息,譬如爬取各城市之間的航班及運價信息。非定向爬蟲從網站的幾個種子鏈接出發,先爬取種子頁面,之后提取種子頁面內所有的超鏈接,繼而爬取新得到的超鏈接,如此循環,直到所有頁面爬取完畢或者到達指定的鏈接深度為止。百度、谷歌等搜索引擎的爬蟲就是典型的非定向爬蟲。
相對非定向爬蟲需要爬取整個網站甚至全網的頁面,定向爬蟲爬取的頁面要少得多,但要求很高的實時性、信息提取精確無誤、有時需要與用戶交互獲取用戶的授權、快速對網站的變動做相應的調整。
現有的開源爬蟲框架有很多,譬如Nutch、Crawler4j、WebMagic、WebCollector、scrapy等,這些框架針對非定向爬蟲而設計,解決了線程調度和頁面下載和鏈接遍歷的問題,將爬取到的頁面存到Hadoop集群或者本地文件系統。
然而對于有定向爬蟲需求的公司,往往需要自行開發相應的技術系統。這些技術系統針對每一個網站編寫一套計算機程序來下載和解析對應的網頁。由于這些爬蟲技術系統通過特定編程語言(例如Java、C++、Python等等)編寫代碼實現,因而具有如下重大缺點:其一,對爬蟲技術系統進行升級、擴展和調整等維護時需要停機、重新發布代碼,即不能實現熱部署;其二,請求頁面的參數構建、信息提取、頁面控制流等程序代碼揉在一起,程序代碼由于編程語言差異、編程風格差異等因素,不直觀、不易理解和不好維護。
發明內容
為有效解決因代碼發布等維護原因需要重啟系統的問題,實現熱部署能力,本發明的實施方式期望提供一種爬取網頁內容的方法、一種爬取網頁內容的裝置、一種設備以及一種計算機可讀存儲介質,使得爬蟲技術系統具備熱部署能力,在對爬蟲技術系統進行升級、拓展和調整等維護時不需要重啟服務,大大提高系統的可用性。
在本發明實施方式的第一方面中,提供了一種爬取網頁內容的方法,包括:根據任務參數調用相應的頁面流配置;根據所述頁面流配置下載目標頁面;根據頁面配置提取目標頁面中的結構化信息。
在本發明的一個實施例中,所述頁面配置存在于頁面流配置下。
在本發明的另一實施例中,所述頁面流配置存在于配置規則庫中。
在本發明的又一個實施例中,所述配置規則庫包含自定義函數配置。
在本發明的再一個實施例中,所述自定義函數配置、頁面流配置、頁面配置的數據格式是XML格式、YML格式以及JSON格式中的任意一種或者多種。
在本發明的再一個實施例中,還包括:在根據頁面配置提取目標頁面中的結構化信息后,將所述結構化信息持久化。
在本發明的再一個實施例中,所述持久化是指將結構化信息置于數據庫、緩存以及文件系統中的任意一種或者多種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司,未經宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810864353.4/2.html,轉載請聲明來源鉆瓜專利網。





