[發明專利]基于R語言的網頁內容爬取方法、系統和存儲介質在審

申請號：	201811061186.6	申請日：	2018-09-12
公開（公告）號：	CN109284434A	公開（公告）日：	2019-01-29
發明（設計）人：	張進虎;麥家健;林晨曦	申請（專利權）人：	東莞數匯大數據有限公司
主分類號：	G06F16/953	分類號：	G06F16/953;G06F16/958
代理公司：	廣州嘉權專利商標事務所有限公司 44205	代理人：	胡輝
地址：	523900 廣東省***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	抓取頁面信息層級語言服務器存儲介質爬蟲技術網頁內容網頁頁面內容模擬瀏覽器可用性編碼問題后續處理設定條件異步加載語言應用直接存儲直接執行不一致瀏覽器源碼語言網頁應用
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于R語言的網頁內容爬取方法，其特征在于：包括以下步驟：

搭建R語言服務器；

在R語言服務器中執行數據抓取步驟；

所述數據抓取步驟包括：

獲取原始層級的網頁的URL并啟動瀏覽器；

抓取原始層級頁面的第一頁面信息；

根據第一頁面信息和/或設定條件，判斷是否需要抓取下一層級頁面的內容，若是，則抓取下一層頁面的第二頁面信息；反之，則直接執行下一步驟；

將獲取的第一頁面信息和/或第二頁面信息存入數據庫，或者將獲取的第一頁面信息和/或第二頁面信息進行數據處理。

2.根據權利要求1所述的一種基于R語言的網頁內容爬取方法，其特征在于：所述搭建R語言服務器，其具體包括：

加載R語言的基礎包、數據庫調用包和網頁抓取包；

配置瀏覽器驅動、系統環境變量和Selenium服務。

3.根據權利要求1所述的一種基于R語言的網頁內容爬取方法，其特征在于：所述抓取原始層級頁面的第一頁面信息，其具體包括：

抓取原始層級頁面的設定網頁元素作為第一頁面信息；

或者

根據設定內容在原始層級頁面的搜索框中進行搜索，并抓取搜索結果中的設定元素作為第一頁面信息。

4.根據權利要求1所述的一種基于R語言的網頁內容爬取方法，其特征在于：所述數據抓取步驟還包括：

當瀏覽器打開的頁面數量達到設定閾值時，重新啟動瀏覽器。

5.一種基于R語言的網頁內容爬取系統，其特征在于：包括：

搭建模塊，用于搭建R語言服務器；

所述R語言服務器包括：

獲取模塊，用于獲取原始層級的網頁的URL并啟動瀏覽器；

抓取模塊，用于抓取原始層級頁面的第一頁面信息；

判斷抓取模塊，用于根據第一頁面信息和/或設定條件，判斷是否需要抓取下一層級頁面的內容，若是，則抓取下一層頁面的第二頁面信息；反之，則直接執行下一步驟；

信息處理模塊，用于將獲取的第一頁面信息和/或第二頁面信息存入數據庫，或者將獲取的第一頁面信息和/或第二頁面信息進行數據處理。

6.根據權利要求5所述的一種基于R語言的網頁內容爬取系統，其特征在于：所述搭建模塊包括：

加載單元，用于加載R語言的基礎包、數據庫調用包和網頁抓取包；

配置單元，用于配置瀏覽器驅動、系統環境變量和Selenium服務。

7.根據權利要求5所述的一種基于R語言的網頁內容爬取系統，其特征在于：所述抓取模塊具體用于：

抓取原始層級頁面的設定網頁元素作為第一頁面信息；

或者

根據設定內容在原始層級頁面的搜索框中進行搜索，并抓取搜索結果中的設定元素作為第一頁面信息。

8.根據權利要求5所述的一種基于R語言的網頁內容爬取系統，其特征在于：所述R語言服務器還包括重啟模塊，所述重啟模塊用于：

當瀏覽器打開的頁面數量達到設定閾值時，重新啟動瀏覽器。

9.一種基于R語言的網頁內容爬取系統，其特征在于：包括：

存儲器，用于存儲程序；

處理器，用于加載所述程序以執行如權利要求1-4任一項所述的一種基于R語言的網頁內容爬取方法。

10.一種存儲介質，所述存儲介質上存有程序，其特征在于：所述程序被處理器執行時實現如權利要求1-4任一項所述的一種基于R語言的網頁內容爬取方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于東莞數匯大數據有限公司，未經東莞數匯大數據有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811061186.6/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：面向產品數據管理系統的信息共享方法和裝置
下一篇：面向互聯網的用戶交互痕跡捕獲、存儲和檢索系統及方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】