[發明專利]一種基于內嵌瀏覽器的可視化網絡爬蟲系統及分析方法在審

申請號：	201710234111.2	申請日：	2017-04-11
公開（公告）號：	CN107092670A	公開（公告）日：	2017-08-25
發明（設計）人：	李煜;王小龍;李鵬	申請（專利權）人：	武漢大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	武漢科皓知識產權代理事務所(特殊普通合伙)42222	代理人：	魯力
地址：	430072 湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于瀏覽器可視化網絡爬蟲系統分析方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于計算機網絡技術領域，特別是涉及一種基于內嵌瀏覽器的可視化網絡爬蟲系統及分析方法。

背景技術

網絡爬蟲是一種高效的信息抓取工具，它集成了搜索引擎技術，并通過技術手段進行優化，用以從互聯網搜索、抓取并保存任何通過HTML超文本標記語言進行標準化的網頁信息。網絡爬蟲分為通用網絡爬蟲如谷歌、百度瀏覽器和主題網絡爬蟲等。由于通用網絡爬蟲的檢索效果不理想，準確率和召回率都很低，所以主題網絡爬蟲逐漸成為專業用戶及研究人員的首選。主題網絡爬蟲主要采用最佳優先抓取策略，即按照一定的網頁評價算法，計算網頁與主題的相關性，選取“價值”最高的網頁中的鏈接進行抓取。但是主題網絡爬蟲存在一定的問題和缺陷，如當前的網頁評價算法不完善，配置復雜，爬取效率低等。

另外，網頁元素Xpath獲取需要一些組件或瀏覽器的輔助，以Google瀏覽器為例，具體方法為：打開Chrome→輸入網址→右擊感興趣的元素→點擊“檢查”→右擊開發者頁面對應元素→點擊“Copy”→點擊“Copy Xpath”，完成網頁元素Xpath獲取任務。很明顯這一過程過于繁瑣，若元素數量多，則會耗費大量精力。

目前，國內外與可視化爬蟲配置相關的文獻少之又少，而已有的成熟的可視化網絡爬蟲不多且各有各的缺陷。比如八爪魚采集器，其配置步驟雖然少，但是配置過程復雜，層次不清晰。它以分頁頁面為起點，直接對詳細頁面進行配置，各種界面操作沒有進行分類，而是一次性讓用戶選擇，這對于普通用戶而言難度過大。

綜上，當前市場上的爬蟲存在的缺陷有：1、配置復雜；2、爬取效率低；3、Xpath獲取步驟繁瑣；4、可視化程度低。

發明內容

本發明致力于解決現有爬蟲配置難、操作復雜及效率低的問題。

為達到上述目的，本發明通過以下技術方案實現：

一種基于內嵌瀏覽器的可視化網絡爬蟲系統，其特征在于，包括：

頁面查看模式：包括瀏覽器模式、HTML元素樹形結構模式、腳本頁面模式和HTML源代碼模式；

頁面元素選擇：包括單選頁面元素、多選頁面元素和網頁元素相似選擇

爬蟲結構樹：包括分支頁面、分頁頁面和詳細頁面；配置分支頁面是利用所述的頁面元素選擇，將某類元素提取到分支列表，加入所述的爬蟲結構樹。

在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統，所述的單選頁面元素是通過單擊頁面元素獲取其Xpath；所述的多選頁面元素是通過按住Ctrl鍵同時多次單擊頁面元素獲取多個元素的Xpath；所述的網頁元素相似選擇是通過按住Shift鍵同時多次單擊頁面元素獲取相似元素的Xpath。

在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統，所述的分頁頁面包括：列表同類鏈接信息和分頁信息。

在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統，所述的列表同類鏈接信息是利用所述的網頁元素相似選擇，點擊兩個鏈接，自動進行相似提取和智能計算，提取包括列表父節點Xpath、單項Item節點Xpath列表、超鏈接節點Xpath和鏈接相對Item的相對Xpath。

在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統，所述的分頁信息是利用所述的單選頁面元素，點擊分頁頁面中的首尾頁鏈接，提取首尾頁的Xpath和鏈接信息，進行智能比較算法，算出網址的格式化信息和首尾頁數值索引。

在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統，配置所述的詳細頁面是利用所述的單選頁面元素，提取元素XPath，綁定數據庫，為對應字段賦值。

一種基于內嵌瀏覽器的可視化網絡爬蟲分析方法，其特征在于，包括：

步驟1：分析待爬網站的層次結構，輸入首頁網址；

步驟2：根據網站的結構，選擇對應的配置方式：

配置方式一：若是配置同類元素，且有下級鏈接，則選用分支頁面，選擇一種單選、多選或相似選擇的方式，提取分支列表；

配置方式二：若是配置分頁信息和列表同類鏈接信息，則選用分頁頁面，使用相似選擇的方式，點擊分頁頁面的首尾頁鏈接，通過智能比較算法，算出網址的格式化信息和首尾頁數值索引；

配置方式三：若是配置最底層的頁面，則選用詳細頁面，通過單選元素的方式，提取每一個感興趣的頁面元素的Xpath，綁定數據庫，選擇對應的表信息，為字段賦值，完善表信息；

步驟3：根據配置好的爬蟲方案樹，程序自動按照所有分支下的詳細頁面內各個元素的Xpath獲取(下載)元素的文本，并存入與之關聯的數據庫內，最終完成數據采集任務。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于武漢大學，未經武漢大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710234111.2/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】