[發明專利]一種基于無界面瀏覽器和可配置代理攔截的網頁抓取系統及抓取方法在審
| 申請號: | 201811019215.2 | 申請日: | 2018-09-03 |
| 公開(公告)號: | CN109446392A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 朱靜軒;劉國慶;章文友;孟彥 | 申請(專利權)人: | 中新網絡信息安全股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230088 安徽省合肥*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 界面瀏覽器 內容選擇 抓取 頁面下載 啟動模塊 網頁抓取 攔截 可配置 網址 靜態頁面生成 互聯網網頁 代理參數 規則選取 模塊配置 模塊限定 區域內容 網頁技術 網站參數 頁面返回 頁面鏈接 瀏覽器 代理 服務器 標簽 網頁 渲染 保存 返回 | ||
1.一種基于無界面瀏覽器和可配置代理攔截的網頁抓取系統,其特征在于,包括:
無界面瀏覽器啟動模塊,所述無界面瀏覽器啟動模塊用于啟動無界面瀏覽器;
頁面下載模塊,所述頁面下載模塊用于將待攔截網頁的頁面標簽加入其內;
內容選擇模塊,所述內容選擇模塊用于配置待攔截網頁的內容選擇規則,并根據所述內容選擇規則選取待攔截網頁的數據,且將所述數據緩存至緩存區。
2.根據權利要求1所述的一種基于無界面瀏覽器和可配置代理攔截的網頁抓取系統,其特征在于,還包括數據緩存模塊,所述數據緩存模塊用于接收所述緩存區內緩存滿后的數據。
3.一種根據權利要求1所述的網頁抓取系統的抓取方法,其特征在于,包括如下步驟:
步驟1、無界面瀏覽器啟動模塊啟動無界面瀏覽器,并指定無界面瀏覽器的網址、代理參數、網站參數;
步驟2、選擇無界面瀏覽器網址頁面鏈接標簽,并加入至頁面下載模塊中;
步驟3、頁面下載模塊攔截瀏覽器的頁面返回結果,并保存;
步驟4、內容選擇模塊配置頁面的內容選擇規則;
步驟5、內容選擇模塊根據內容選擇規則選取指定區域內容的數據;
步驟6、內容選擇模塊將數據發送至緩存區內。
4.根據權利要求3所述的一種抓取方法,其特征在于,還包括:步驟7、緩存區內的數據緩存滿后,將由內容選擇模塊將其發送至數據緩存模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中新網絡信息安全股份有限公司,未經中新網絡信息安全股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811019215.2/1.html,轉載請聲明來源鉆瓜專利網。





