[發明專利]一種爬取網頁內容的方法和裝置在審
| 申請號: | 201810864353.4 | 申請日: | 2018-08-01 |
| 公開(公告)號: | CN109255063A | 公開(公告)日: | 2019-01-22 |
| 發明(設計)人: | 唐明東;覃柏瑜 | 申請(專利權)人: | 宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 上海衡方知識產權代理有限公司 31234 | 代理人: | 朱穆峰 |
| 地址: | 100022 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁內容 目標頁面 頁面流 計算機可讀存儲介質 方法和裝置 結構化信息 代碼發布 爬蟲系統 任務參數 系統重啟 頁面配置 有效解決 熱部署 下載 調用 配置 維護 | ||
1.一種爬取網頁內容的方法,其特征在于,包括:
根據任務參數調用相應的頁面流配置;
根據所述頁面流配置下載目標頁面;
根據頁面配置提取目標頁面中的結構化信息。
2.如權利要求1所述的方法,其特征在于,所述頁面配置存在于頁面流配置下。
3.如權利要求2所述的方法,其特征在于,所述頁面流配置存在于配置規則庫中。
4.如權利要求3所述的方法,其特征在于,所述配置規則庫包含自定義函數配置。
5.如權利要求4所述的方法,其特征在于,所述自定義函數配置、頁面流配置、頁面配置的數據格式是XML格式、YML格式以及JSON格式中的任意一種或者多種。
6.如權利要求1-5所述的方法,其特征在于,還包括:在根據頁面配置提取目標頁面中的結構化信息后,將所述結構化信息持久化。
7.如權利要求6所述的方法,其特征在于,所述持久化是指將結構化信息置于數據庫、緩存以及文件系統中的任意一種或者多種。
8.一種爬取網頁內容的裝置,其特征在于,包括:
匹配模塊,用于根據任務參數調用相應的頁面流配置;
下載模塊,用于根據所述頁面流配置下載目標頁面;
提取模塊,用于根據頁面配置提取目標頁面中的結構化信息。
9.如權利要求8所述的裝置,其特征在于,所述頁面配置存在于頁面流配置下。
10.如權利要求9所述的裝置,其特征在于,所述頁面流配置存在于配置規則庫中。
11.如權利要求10所述的裝置,其特征在于,所述配置規則庫包含自定義函數配置。
12.如權利要求11所述的裝置,其特征在于,所述自定義函數配置、頁面流配置、頁面配置的數據格式是XML格式、YML格式以及JSON格式中的任意一種或者多種。
13.如權利要求8-12所述的裝置,其特征在于,還包括:
持久模塊,用于在根據頁面配置提取目標頁面中的結構化信息后,將所述結構化信息持久化。
14.如權利要求13所述的裝置,其特征在于,所述持久化是指將結構化信息置于數據庫、緩存以及文件系統中的任意一種或者多種。
15.一種設備,包括:
存儲器,用于存儲計算機程序;
處理器,用于執行所述存儲器中存儲的計算機程序,且所述計算機程序被執行時,實現權利要求1-7中任意一項所述的方法。
16.一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時,實現權利要求1-7中任意一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司,未經宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810864353.4/1.html,轉載請聲明來源鉆瓜專利網。





