[發明專利]一種基于內嵌瀏覽器的可視化網絡爬蟲系統及分析方法在審
| 申請號: | 201710234111.2 | 申請日: | 2017-04-11 |
| 公開(公告)號: | CN107092670A | 公開(公告)日: | 2017-08-25 |
| 發明(設計)人: | 李煜;王小龍;李鵬 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 瀏覽器 可視化 網絡 爬蟲 系統 分析 方法 | ||
技術領域
本發明屬于計算機網絡技術領域,特別是涉及一種基于內嵌瀏覽器的可視化網絡爬蟲系統及分析方法。
背景技術
網絡爬蟲是一種高效的信息抓取工具,它集成了搜索引擎技術,并通過技術手段進行優化,用以從互聯網搜索、抓取并保存任何通過HTML超文本標記語言進行標準化的網頁信息。網絡爬蟲分為通用網絡爬蟲如谷歌、百度瀏覽器和主題網絡爬蟲等。由于通用網絡爬蟲的檢索效果不理想,準確率和召回率都很低,所以主題網絡爬蟲逐漸成為專業用戶及研究人員的首選。主題網絡爬蟲主要采用最佳優先抓取策略,即按照一定的網頁評價算法,計算網頁與主題的相關性,選取“價值”最高的網頁中的鏈接進行抓取。但是主題網絡爬蟲存在一定的問題和缺陷,如當前的網頁評價算法不完善,配置復雜,爬取效率低等。
另外,網頁元素Xpath獲取需要一些組件或瀏覽器的輔助,以Google瀏覽器為例,具體方法為:打開Chrome→輸入網址→右擊感興趣的元素→點擊“檢查”→右擊開發者頁面對應元素→點擊“Copy”→點擊“Copy Xpath”,完成網頁元素Xpath獲取任務。很明顯這一過程過于繁瑣,若元素數量多,則會耗費大量精力。
目前,國內外與可視化爬蟲配置相關的文獻少之又少,而已有的成熟的可視化網絡爬蟲不多且各有各的缺陷。比如八爪魚采集器,其 配置步驟雖然少,但是配置過程復雜,層次不清晰。它以分頁頁面為起點,直接對詳細頁面進行配置,各種界面操作沒有進行分類,而是一次性讓用戶選擇,這對于普通用戶而言難度過大。
綜上,當前市場上的爬蟲存在的缺陷有:1、配置復雜;2、爬取效率低;3、Xpath獲取步驟繁瑣;4、可視化程度低。
發明內容
本發明致力于解決現有爬蟲配置難、操作復雜及效率低的問題。
為達到上述目的,本發明通過以下技術方案實現:
一種基于內嵌瀏覽器的可視化網絡爬蟲系統,其特征在于,包括:
頁面查看模式:包括瀏覽器模式、HTML元素樹形結構模式、腳本頁面模式和HTML源代碼模式;
頁面元素選擇:包括單選頁面元素、多選頁面元素和網頁元素相似選擇
爬蟲結構樹:包括分支頁面、分頁頁面和詳細頁面;配置分支頁面是利用所述的頁面元素選擇,將某類元素提取到分支列表,加入所述的爬蟲結構樹。
在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統,所述的單選頁面元素是通過單擊頁面元素獲取其Xpath;所述的多選頁面元素是通過按住Ctrl鍵同時多次單擊頁面元素獲取多個元素的Xpath;所述的網頁元素相似選擇是通過按住Shift鍵同時多次單擊頁面元素獲取相似元素的Xpath。
在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統,所述的分頁頁面包括:列表同類鏈接信息和分頁信息。
在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統,所述的列表同 類鏈接信息是利用所述的網頁元素相似選擇,點擊兩個鏈接,自動進行相似提取和智能計算,提取包括列表父節點Xpath、單項Item節點Xpath列表、超鏈接節點Xpath和鏈接相對Item的相對Xpath。
在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統,所述的分頁信息是利用所述的單選頁面元素,點擊分頁頁面中的首尾頁鏈接,提取首尾頁的Xpath和鏈接信息,進行智能比較算法,算出網址的格式化信息和首尾頁數值索引。
在上述的基于內嵌瀏覽器的可視化網絡爬蟲系統,配置所述的詳細頁面是利用所述的單選頁面元素,提取元素XPath,綁定數據庫,為對應字段賦值。
一種基于內嵌瀏覽器的可視化網絡爬蟲分析方法,其特征在于,包括:
步驟1:分析待爬網站的層次結構,輸入首頁網址;
步驟2:根據網站的結構,選擇對應的配置方式:
配置方式一:若是配置同類元素,且有下級鏈接,則選用分支頁面,選擇一種單選、多選或相似選擇的方式,提取分支列表;
配置方式二:若是配置分頁信息和列表同類鏈接信息,則選用分頁頁面,使用相似選擇的方式,點擊分頁頁面的首尾頁鏈接,通過智能比較算法,算出網址的格式化信息和首尾頁數值索引;
配置方式三:若是配置最底層的頁面,則選用詳細頁面,通過單選元素的方式,提取每一個感興趣的頁面元素的Xpath,綁定數據庫,選擇對應的表信息,為字段賦值,完善表信息;
步驟3:根據配置好的爬蟲方案樹,程序自動按照所有分支下的詳細頁面內各個元素的Xpath獲取(下載)元素的文本,并存入與之關聯的數據庫內,最終完成數據采集任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710234111.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建立機器人智能交互的方法
- 下一篇:一種元信息管理的方法及設備





