[發(fā)明專利]網(wǎng)絡(luò)爬蟲的測試方法、裝置、服務(wù)器和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201710891661.1 | 申請日: | 2017-09-22 |
| 公開(公告)號: | CN107766237A | 公開(公告)日: | 2018-03-06 |
| 發(fā)明(設(shè)計)人: | 謝永恒;何大鵬;火一莽;萬月亮 | 申請(專利權(quán))人: | 北京銳安科技有限公司 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 孟金喆 |
| 地址: | 100044 北京市海淀區(qū)西小口*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)絡(luò) 爬蟲 測試 方法 裝置 服務(wù)器 存儲 介質(zhì) | ||
技術(shù)領(lǐng)域
本申請實施例涉及軟件測試技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)爬蟲的測試方法、裝置、服務(wù)器和存儲介質(zhì)。
背景技術(shù)
隨著網(wǎng)絡(luò)的迅速發(fā)展,互聯(lián)網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn),搜索引擎(Search Engine),作為一個輔助人們獲取各類檢索信息的工具成為用戶訪問互聯(lián)網(wǎng)的入口和指南。
網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。由于網(wǎng)絡(luò)爬蟲每天需要抓取巨量的網(wǎng)站,為了檢測網(wǎng)路爬蟲的抓取結(jié)果的性能,需要對網(wǎng)絡(luò)爬蟲進(jìn)行測試。
常規(guī)的測試方法一般是人工對比網(wǎng)站的數(shù)據(jù)和網(wǎng)絡(luò)爬蟲所抓取的數(shù)據(jù),以驗證測試結(jié)果,這種測試方法非常費時,測試效率低下。
發(fā)明內(nèi)容
本申請實施例提供一種網(wǎng)絡(luò)爬蟲的測試方法、裝置、服務(wù)器和存儲介質(zhì),以實現(xiàn)提高網(wǎng)絡(luò)爬蟲的測試效率的目的。
第一方面,本申請實施例提供了一種網(wǎng)絡(luò)爬蟲的測試方法,包括:
從測試網(wǎng)站對應(yīng)的網(wǎng)頁文件上隨機獲取測試文本;
調(diào)用所述測試網(wǎng)站的內(nèi)部查詢接口,根據(jù)所述測試文本進(jìn)行檢索,以生成第一檢索結(jié)果;
運行網(wǎng)絡(luò)爬蟲以得到爬取結(jié)果,并在所述爬取結(jié)果中檢索所述測試文本,以生成第二檢索結(jié)果;
根據(jù)所述第一檢索結(jié)果和所述第二檢索結(jié)果生成測試結(jié)果。
進(jìn)一步地,所述從測試網(wǎng)站對應(yīng)的網(wǎng)頁文件上獲取測試文本之前,還包括:從爬蟲種子庫獲取至少一個種子網(wǎng)站作為測試網(wǎng)站。
進(jìn)一步地,所述運行網(wǎng)絡(luò)爬蟲以得到爬取結(jié)果,并在所述爬取結(jié)果中檢索所述測試文本,以生成第二檢索結(jié)果包括:
基于所述爬蟲種子庫運行網(wǎng)絡(luò)爬蟲,獲取所述爬蟲種子庫中的種子網(wǎng)站對應(yīng)的HTML格式文件;
將所述HTML格式文件轉(zhuǎn)換為Velocity格式文件,并輸入solr庫中作為爬取結(jié)果;
在所述solr庫中檢索所述檢測關(guān)鍵詞,以生成第二檢索結(jié)果。
進(jìn)一步地,所述根據(jù)所述第一檢索結(jié)果和所述第二檢索結(jié)果生成測試結(jié)果,包括:
根據(jù)網(wǎng)址比對所述第一檢索結(jié)果和所述第二檢索結(jié)果;
如果所述第一檢索結(jié)果中的網(wǎng)址和所述第二檢索結(jié)果中的網(wǎng)址相同,則測試結(jié)果為爬蟲正確;
否則測試結(jié)果為爬蟲失敗。
進(jìn)一步地,所述根據(jù)所述第一檢索結(jié)果和所述第二檢索結(jié)果生成測試結(jié)果,包括:
根據(jù)的網(wǎng)址和網(wǎng)頁信息比對所述第一檢索結(jié)果和所述第二檢索結(jié)果;
當(dāng)所述第一檢索結(jié)果的網(wǎng)址和所述第二檢索結(jié)果的網(wǎng)址相同,以及所述第一檢索結(jié)果的網(wǎng)頁信息和所述第二檢索結(jié)果的網(wǎng)頁信息相同,則測試結(jié)果為爬蟲正確;
否則測試結(jié)果為爬蟲失敗。
第二方面,本申請實施例還提供了一種網(wǎng)絡(luò)爬蟲的測試裝置,包括:
關(guān)鍵詞獲取模塊,用于從測試網(wǎng)站對應(yīng)的網(wǎng)頁文件上隨機獲取測試文本;
第一檢索模塊,用于調(diào)用所述測試網(wǎng)站的內(nèi)部查詢接口,根據(jù)所述測試文本進(jìn)行檢索,以生成第一檢索結(jié)果;
第二檢索模塊,用于運行網(wǎng)絡(luò)爬蟲以得到爬取結(jié)果,并在所述爬取結(jié)果中檢索所述測試文本,以生成第二檢索結(jié)果;
結(jié)果生成模塊,用于根據(jù)所述第一檢索結(jié)果和所述第二檢索結(jié)果生成測試結(jié)果。
進(jìn)一步地,還包括:
測試獲取模塊,用于從爬蟲種子庫獲取至少一個種子網(wǎng)站作為測試網(wǎng)站;
相應(yīng)地,所述第二檢索模塊具體包括:
爬取單元,用于基于所述爬蟲種子庫運行網(wǎng)絡(luò)爬蟲,獲取所述爬蟲種子庫中的種子網(wǎng)站對應(yīng)的HTML格式文件;
爬取結(jié)果單元,用于將所述HTML格式文件轉(zhuǎn)換為Velocity格式文件,并輸入solr庫中作為爬取結(jié)果;
爬取檢索單元,用于在所述solr庫中檢索所述檢測關(guān)鍵詞,以生成第二檢索結(jié)果。
進(jìn)一步地,結(jié)果生成模塊具體用于:
根據(jù)的網(wǎng)址和網(wǎng)頁信息比對所述第一檢索結(jié)果和所述第二檢索結(jié)果;
當(dāng)所述第一檢索結(jié)果的網(wǎng)址和所述第二檢索結(jié)果的網(wǎng)址相同,以及所述第一檢索結(jié)果的網(wǎng)頁信息和所述第二檢索結(jié)果的網(wǎng)頁信息相同,則測試結(jié)果為爬蟲正確;
否則測試結(jié)果為爬蟲失敗。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京銳安科技有限公司,未經(jīng)北京銳安科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710891661.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





