[發(fā)明專利]一種基于無界面瀏覽器和可配置代理攔截的網(wǎng)頁抓取系統(tǒng)及抓取方法在審
| 申請?zhí)枺?/td> | 201811019215.2 | 申請日: | 2018-09-03 |
| 公開(公告)號: | CN109446392A | 公開(公告)日: | 2019-03-08 |
| 發(fā)明(設(shè)計)人: | 朱靜軒;劉國慶;章文友;孟彥 | 申請(專利權(quán))人: | 中新網(wǎng)絡(luò)信息安全股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 上海精晟知識產(chǎn)權(quán)代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230088 安徽省合肥*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 界面瀏覽器 內(nèi)容選擇 抓取 頁面下載 啟動模塊 網(wǎng)頁抓取 攔截 可配置 網(wǎng)址 靜態(tài)頁面生成 互聯(lián)網(wǎng)網(wǎng)頁 代理參數(shù) 規(guī)則選取 模塊配置 模塊限定 區(qū)域內(nèi)容 網(wǎng)頁技術(shù) 網(wǎng)站參數(shù) 頁面返回 頁面鏈接 瀏覽器 代理 服務(wù)器 標簽 網(wǎng)頁 渲染 保存 返回 | ||
本發(fā)明涉及互聯(lián)網(wǎng)網(wǎng)頁抓取技術(shù)領(lǐng)域,具體涉及一種基于無界面瀏覽器和可配置代理攔截的網(wǎng)頁抓取系統(tǒng),包括無界面瀏覽器啟動模塊、頁面下載模塊、內(nèi)容選擇模塊。本發(fā)明還公開了一種抓取方法,包括無界面瀏覽器啟動模塊啟動無界面瀏覽器,并指定無界面瀏覽器的網(wǎng)址、代理參數(shù)、網(wǎng)站參數(shù)、選擇無界面瀏覽器網(wǎng)址頁面鏈接標簽,并加入至頁面下載模塊中、頁面下載模塊攔截瀏覽器的頁面返回結(jié)果,并保存、內(nèi)容選擇模塊配置頁面的內(nèi)容選擇規(guī)則、內(nèi)容選擇模塊根據(jù)內(nèi)容選擇規(guī)則選取指定區(qū)域內(nèi)容的數(shù)據(jù)。本發(fā)明通過無界面瀏覽器渲染網(wǎng)頁技術(shù),將服務(wù)器返回的動靜態(tài)頁面生成純HTML靜態(tài)頁面,根據(jù)內(nèi)容選擇模塊限定的規(guī)則,抓取網(wǎng)頁的數(shù)據(jù)。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)網(wǎng)頁抓取技術(shù)領(lǐng)域,具體涉及一種基于無界面瀏覽器和可配置代理攔截的網(wǎng)頁抓取系統(tǒng)及抓取方法。
背景技術(shù)
隨著信息技術(shù)發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為大量信息的載體,而如何利用有效的技術(shù)手段提取和利用這些信息成了一個巨大的挑戰(zhàn),目前已有的方案是通過模擬瀏覽器的發(fā)包行為加以獲取,但大多需要掌握專業(yè)的協(xié)議知識,和應(yīng)對網(wǎng)站反爬的措施,技術(shù)門檻相對較高。而模擬瀏覽器的行為會被服務(wù)器認為是惡意訪問,會被封鎖,導(dǎo)致爬取中斷。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中存在的問題,提供一種基于無界面瀏覽器和可配置代理攔截的網(wǎng)頁抓取系統(tǒng)及抓取方法,它可以通過該系統(tǒng)能將所選取的網(wǎng)頁的數(shù)據(jù)進行緩存,使抓取效果更佳,該抓取方法通過無界面瀏覽器渲染網(wǎng)頁技術(shù),將服務(wù)器返回的動靜態(tài)頁面生成純HTML靜態(tài)頁面,根據(jù)內(nèi)容選擇模塊限定的規(guī)則,抓取網(wǎng)頁的數(shù)據(jù)。
為實現(xiàn)上述技術(shù)目的,達到上述技術(shù)效果,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
一種基于無界面瀏覽器和可配置代理攔截的網(wǎng)頁抓取系統(tǒng),包括:
無界面瀏覽器啟動模塊,所述無界面瀏覽器啟動模塊用于啟動無界面瀏覽器;
頁面下載模塊,所述頁面下載模塊用于將待攔截網(wǎng)頁的頁面標簽加入其內(nèi);
內(nèi)容選擇模塊,所述內(nèi)容選擇模塊用于配置待攔截網(wǎng)頁的內(nèi)容選擇規(guī)則,并根據(jù)所述內(nèi)容選擇規(guī)則選取待攔截網(wǎng)頁的數(shù)據(jù),且將所述數(shù)據(jù)緩存至緩存區(qū)。
進一步地,還包括數(shù)據(jù)緩存模塊,所述數(shù)據(jù)緩存模塊用于接收所述緩存區(qū)內(nèi)緩存滿后的數(shù)據(jù)。
一種抓取方法,包括如下步驟:
步驟1、無界面瀏覽器啟動模塊啟動無界面瀏覽器,并指定無界面瀏覽器的網(wǎng)址、代理參數(shù)、網(wǎng)站參數(shù);
步驟2、選擇無界面瀏覽器網(wǎng)址頁面鏈接標簽,并加入至頁面下載模塊中;
步驟3、頁面下載模塊攔截瀏覽器的頁面返回結(jié)果,并保存;
步驟4、內(nèi)容選擇模塊配置頁面的內(nèi)容選擇規(guī)則;
步驟5、內(nèi)容選擇模塊根據(jù)內(nèi)容選擇規(guī)則選取指定區(qū)域內(nèi)容的數(shù)據(jù);
步驟6、內(nèi)容選擇模塊將數(shù)據(jù)發(fā)送至緩存區(qū)內(nèi)。
進一步地,還包括:步驟7、緩存區(qū)內(nèi)的數(shù)據(jù)緩存滿后,將由內(nèi)容選擇模塊將其發(fā)送至數(shù)據(jù)緩存模塊。
本發(fā)明的有益效果:通過該系統(tǒng)能將所選取的網(wǎng)頁的數(shù)據(jù)進行緩存,使抓取效果更佳,該抓取方法中,通過無界面瀏覽器渲染網(wǎng)頁技術(shù),將服務(wù)器返回的動靜態(tài)頁面生成純HTML靜態(tài)頁面,根據(jù)內(nèi)容選擇模塊限定的規(guī)則,抓取網(wǎng)頁的數(shù)據(jù),通過數(shù)據(jù)緩存模塊將抓取的網(wǎng)頁數(shù)據(jù)進行緩存,使能夠不斷地對網(wǎng)頁進行抓取,從而防止網(wǎng)頁數(shù)據(jù)量過大,產(chǎn)生沖突。
附圖說明
圖1為本發(fā)明一種基于無界面瀏覽器和可配置代理攔截的網(wǎng)頁抓取系統(tǒng)的框架示意圖;
圖2為本發(fā)明一種抓取方法的流程示意圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中新網(wǎng)絡(luò)信息安全股份有限公司,未經(jīng)中新網(wǎng)絡(luò)信息安全股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811019215.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





