[發明專利]基于R語言的網頁內容爬取方法、系統和存儲介質在審

申請號：	201811061186.6	申請日：	2018-09-12
公開（公告）號：	CN109284434A	公開（公告）日：	2019-01-29
發明（設計）人：	張進虎;麥家健;林晨曦	申請（專利權）人：	東莞數匯大數據有限公司
主分類號：	G06F16/953	分類號：	G06F16/953;G06F16/958
代理公司：	廣州嘉權專利商標事務所有限公司 44205	代理人：	胡輝
地址：	523900 廣東省***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	抓取頁面信息層級語言服務器存儲介質爬蟲技術網頁內容網頁頁面內容模擬瀏覽器可用性編碼問題后續處理設定條件異步加載語言應用直接存儲直接執行不一致瀏覽器源碼語言網頁應用
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于R語言的網頁內容爬取方法、系統和存儲介質，包括以下步驟：搭建R語言服務器；在R語言服務器中執行以下步驟：獲取原始層級的網頁的URL并啟動瀏覽器；抓取原始層級頁面的第一頁面信息；根據第一頁面信息和/或設定條件，判斷是否需要抓取下一層級頁面的內容，若是，則抓取下一層頁面的第二頁面信息；反之，則直接執行下一步驟；直接存儲或者處理獲得的頁面信息。本發明將R語言應用在爬蟲技術，可以通過模擬瀏覽器的功能，來解決異步加載網頁頁面內容和源碼不一致的問題，使得抓取的數據的可用性高，降低編碼問題出現的可能性，提升了數據后續處理的速度。本發明可以廣泛應用于爬蟲技術。

技術領域

本發明涉及爬蟲技術，尤其是一種基于R語言的網頁內容爬取方法、系統和存儲介質。

背景技術

網絡爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，網絡爬蟲是搜索引擎的重要組成。網絡爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。

但是隨著網頁加密技術的發展，在頁面抓取過程出現異步加載頁面內容與源碼不一致的問題越來越多，增大了信息抓取的難度，導致網絡爬蟲的可用性降低，因此網絡爬蟲需要得到改進。

發明內容

為解決上述技術問題，本發明的目的在于：提供一種基于R語言的網頁內容爬取方法、系統和存儲介質。

本發明所采取的第一技術方案是：

一種基于R語言的網頁內容爬取方法，包括以下步驟：

搭建R語言服務器；

在R語言服務器中執行數據抓取步驟；

所述數據抓取步驟包括：

抓取原始層級頁面的第一頁面信息；

根據第一頁面信息和/或設定條件，判斷是否需要抓取下一層級頁面的內容，若是，則抓取下一層頁面的第二頁面信息；反之，則直接執行下一步驟；

將獲取的第一頁面信息和/或第二頁面信息存入數據庫，或者將獲取的第一頁面信息和/或第二頁面信息進行數據處理。

進一步，所述搭建R語言服務器，其具體包括：

加載R語言的基礎包、數據庫調用包和網頁抓取包；

配置瀏覽器驅動、系統環境變量和Selenium服務。

進一步，所述抓取原始層級頁面的第一頁面信息，其具體包括：

抓取原始層級頁面的設定網頁元素作為第一頁面信息；

或者

根據設定內容在原始層級頁面的搜索框中進行搜索，并抓取搜索結果中的設定元素作為第一頁面信息。

進一步，還包括以下在R語言服務器中執行步驟：

當瀏覽器打開的頁面數量達到設定閾值時，重新啟動瀏覽器。

本發明所采取的第二技術方案是：

一種基于R語言的網頁內容爬取系統，包括：

搭建模塊，用于搭建R語言服務器；

R語言服務器，用于執行數據抓取；

所述R語言服務器包括：

獲取模塊，用于獲取原始層級的網頁的URL并啟動瀏覽器；

抓取模塊，用于抓取原始層級頁面的第一頁面信息；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于東莞數匯大數據有限公司，未經東莞數匯大數據有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811061186.6/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：面向產品數據管理系統的信息共享方法和裝置
下一篇：面向互聯網的用戶交互痕跡捕獲、存儲和檢索系統及方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】