[發(fā)明專利]一種基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲系統(tǒng)及分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710234111.2 | 申請(qǐng)日: | 2017-04-11 |
| 公開(公告)號(hào): | CN107092670A | 公開(公告)日: | 2017-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 李煜;王小龍;李鵬 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙)42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 瀏覽器 可視化 網(wǎng)絡(luò) 爬蟲 系統(tǒng) 分析 方法 | ||
1.一種基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲系統(tǒng),其特征在于,包括:
頁(yè)面查看模式(1):包括瀏覽器模式(4)、HTML元素樹形結(jié)構(gòu)模式(5)、腳本頁(yè)面模式(6)和HTML源代碼模式(7);
頁(yè)面元素選擇(2):包括單選頁(yè)面元素(8)、多選頁(yè)面元素(9)和網(wǎng)頁(yè)元素相似選擇(10)
爬蟲結(jié)構(gòu)樹(3):包括分支頁(yè)面(11)、分頁(yè)頁(yè)面(12)和詳細(xì)頁(yè)面(13);配置分支頁(yè)面(11)是利用所述的頁(yè)面元素選擇(2),將某類元素提取到分支列表,加入所述的爬蟲結(jié)構(gòu)樹(3)。
2.根據(jù)權(quán)利要求1所述的基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲系統(tǒng),其特征在于:所述的單選頁(yè)面元素(8)是通過單擊頁(yè)面元素獲取其Xpath;所述的多選頁(yè)面元素(9)是通過按住Ctrl鍵同時(shí)多次單擊頁(yè)面元素獲取多個(gè)元素的Xpath;所述的網(wǎng)頁(yè)元素相似選擇(10)是通過按住Shift鍵同時(shí)多次單擊頁(yè)面元素獲取相似元素的Xpath。
3.根據(jù)權(quán)利要求2所述的基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲系統(tǒng),其特征在于:所述的分頁(yè)頁(yè)面(11)包括:列表同類鏈接信息(14)和分頁(yè)信息(15)。
4.根據(jù)權(quán)利要求3所述的基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲系統(tǒng),其特征在于:所述的列表同類鏈接信息(14)是利用所述的網(wǎng)頁(yè)元素相似選擇(10),點(diǎn)擊兩個(gè)鏈接,自動(dòng)進(jìn)行相似提取和智能計(jì)算,提取包括列表父節(jié)點(diǎn)Xpath、單項(xiàng)Item節(jié)點(diǎn)Xpath列表、超鏈接節(jié)點(diǎn)Xpath和鏈接相對(duì)Item的相對(duì)Xpath。
5.根據(jù)權(quán)利要求3所述的基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲系統(tǒng),其特征在于:所述的分頁(yè)信息(15)是利用所述的單選頁(yè)面元素(8),點(diǎn)擊分頁(yè)頁(yè)面中的首尾頁(yè)鏈接,提取首尾頁(yè)的Xpath和鏈接信息,進(jìn)行智能比較算法,算出網(wǎng)址的格式化信息和首尾頁(yè)數(shù)值索引。
6.根據(jù)權(quán)利要求3所述的基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲系統(tǒng),其特征在于:配置所述的詳細(xì)頁(yè)面(13)是利用所述的單選頁(yè)面元素(8),提取元素XPath,綁定數(shù)據(jù)庫(kù),為對(duì)應(yīng)字段賦值。
7.一種基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲分析方法,其特征在于,包括:
步驟1:分析待爬網(wǎng)站的層次結(jié)構(gòu),輸入首頁(yè)網(wǎng)址;
步驟2:根據(jù)網(wǎng)站的結(jié)構(gòu),選擇對(duì)應(yīng)的配置方式:
配置方式一:若是配置同類元素,且有下級(jí)鏈接,則選用分支頁(yè)面,選擇一種單選、多選或相似選擇的方式,提取分支列表;
配置方式二:若是配置分頁(yè)信息和列表同類鏈接信息,則選用分頁(yè)頁(yè)面,使用相似選擇的方式,點(diǎn)擊分頁(yè)頁(yè)面的首尾頁(yè)鏈接,通過智能比較算法,算出網(wǎng)址的格式化信息和首尾頁(yè)數(shù)值索引;
配置方式三:若是配置最底層的頁(yè)面,則選用詳細(xì)頁(yè)面,通過單選元素的方式,提取每一個(gè)感興趣的頁(yè)面元素的Xpath,綁定數(shù)據(jù)庫(kù),選擇對(duì)應(yīng)的表信息,為字段賦值,完善表信息;
步驟3:根據(jù)配置好的爬蟲方案樹,程序自動(dòng)按照所有分支下的詳細(xì)頁(yè)面內(nèi)各個(gè)元素的Xpath獲取(下載)元素的文本,并存入與之關(guān)聯(lián)的數(shù)據(jù)庫(kù)內(nèi),最終完成數(shù)據(jù)采集任務(wù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710234111.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場(chǎng)可視化視圖量化方法
- 可視化報(bào)表的制作方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機(jī)房3D可視化運(yùn)維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場(chǎng)景城市建筑實(shí)時(shí)三維可視化的方法
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





