[發(fā)明專利]一種網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的優(yōu)化方法在審
| 申請?zhí)枺?/td> | 201811391944.0 | 申請日: | 2018-11-21 |
| 公開(公告)號: | CN109299392A | 公開(公告)日: | 2019-02-01 |
| 發(fā)明(設(shè)計(jì))人: | 胡翔 | 申請(專利權(quán))人: | 安徽云融信息技術(shù)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/955 |
| 代理公司: | 上海精晟知識產(chǎn)權(quán)代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市高新區(qū)*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 抓取 模板匹配算法 網(wǎng)絡(luò)爬蟲 資源庫 反向鏈接 目標(biāo)數(shù)據(jù) 匹配 模板數(shù)據(jù)存儲(chǔ) 深度優(yōu)先遍歷 網(wǎng)絡(luò)數(shù)據(jù)傳輸 策略建立 存儲(chǔ)資源 寬度優(yōu)先 模板存儲(chǔ) 模板數(shù)據(jù) 目標(biāo)網(wǎng)站 匹配成功 深度優(yōu)化 數(shù)據(jù)通過 算法策略 無效數(shù)據(jù) 質(zhì)量模板 模板庫 冗余 遍歷 優(yōu)化 篩選 | ||
本發(fā)明公開了一種網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的優(yōu)化方法,涉及網(wǎng)絡(luò)數(shù)據(jù)傳輸領(lǐng)域。本發(fā)明包括如下步驟:步驟S01:建立高質(zhì)量模板資源庫及模板匹配算法;步驟S02:通過深度優(yōu)先遍歷策略及反向鏈接數(shù)策略篩選符合目標(biāo)數(shù)據(jù)URL,建立初級URL隊(duì)列;步驟S03:將初級URL隊(duì)列數(shù)據(jù)通過寬度優(yōu)先算法策略抓取相應(yīng)目標(biāo)網(wǎng)站數(shù)據(jù);步驟S04:根據(jù)模板匹配算法,將目標(biāo)數(shù)據(jù)同模板存儲(chǔ)資源庫中的模板數(shù)據(jù)進(jìn)行匹配;步驟S05:匹配成功的模板數(shù)據(jù)存儲(chǔ)至資源庫。本發(fā)明通過深度優(yōu)化遍歷策略和反向鏈接數(shù)策略建立初級URL隊(duì)列,利用模板匹配算法將模板庫中的模板與抓取的數(shù)據(jù)進(jìn)行匹配,提高了網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的精確性和效率,避免了無效數(shù)據(jù)冗余和存儲(chǔ)資源浪費(fèi)。
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)數(shù)據(jù)傳輸領(lǐng)域,特別是涉及一種網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的優(yōu)化方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)中包含的信息內(nèi)容越來越多,搜索引擎可以幫助人們在海量信息中尋找自己感興趣的內(nèi)容,一般的搜索引擎,如百度、Google和Bing等,都是面向所有用戶提供互聯(lián)網(wǎng)內(nèi)容搜索服務(wù)。這些搜索引擎需要通過爬蟲技術(shù)不斷地從互聯(lián)網(wǎng)上獲取信息,并將這些信息保存起來,以便人們方便地檢索這些信息。由于需要爬取的數(shù)據(jù)量巨大,因此大規(guī)模的搜索引擎往往采取分布式處理機(jī)制,即建立分布式爬蟲服務(wù)系統(tǒng)。這些爬蟲從統(tǒng)一的下載隊(duì)列中獲取目標(biāo)URL,然后將目標(biāo)網(wǎng)頁下載存儲(chǔ)到指定的位置。
搜索引擎越來越多,這些搜索引擎的爬蟲不斷地獲取網(wǎng)站的內(nèi)容,網(wǎng)站系統(tǒng)的壓力越來越大,1994年6月30日,在經(jīng)過搜索引擎人員以及被搜索引擎抓取的網(wǎng)站站長共同討論后,正式發(fā)布了一份行業(yè)規(guī)范,即Robots協(xié)議。Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(RobotsExclusionProtocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
因此,如今網(wǎng)絡(luò)爬蟲存在如下缺點(diǎn):
1、大量重復(fù)URL被解析出來反饋給調(diào)度中心,給調(diào)度中心URL去重模塊帶來了很大的壓力,而且大量重復(fù)的URL回傳花費(fèi)了不少不必要的網(wǎng)絡(luò)流量,降低了爬蟲系統(tǒng)的工作效率;
2、網(wǎng)頁被抓取后回傳給數(shù)據(jù)倉庫,然后在頁面解析時(shí)再進(jìn)行分析,而此過程中大量沒有更新的網(wǎng)頁也在其中,給爬蟲系統(tǒng)浪費(fèi)了很多時(shí)間和流量。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的優(yōu)化方法,通過深度優(yōu)化遍歷策略和反向鏈接數(shù)策略建立初級URL隊(duì)列,利用模板匹配算法將模板庫中的模板與抓取的數(shù)據(jù)進(jìn)行匹配,解決了現(xiàn)有的網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的精確性及效率不足和系統(tǒng)工作效率低的問題。
為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明為一種網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的優(yōu)化方法,包括如下步驟:
步驟S01:建立高質(zhì)量模板資源庫及模板匹配算法;
步驟S02:通過深度優(yōu)先遍歷策略及反向鏈接數(shù)策略篩選符合目標(biāo)數(shù)據(jù)URL,建立初級URL隊(duì)列;
步驟S03:將初級URL隊(duì)列數(shù)據(jù)通過寬度優(yōu)先算法策略抓取相應(yīng)目標(biāo)網(wǎng)站數(shù)據(jù);
步驟S04:根據(jù)模板匹配算法,將目標(biāo)數(shù)據(jù)同模板存儲(chǔ)資源庫中的模板數(shù)據(jù)進(jìn)行匹配;
步驟S05:匹配成功的模板數(shù)據(jù)存儲(chǔ)至資源庫。
優(yōu)選地,所述步驟S02中,深度優(yōu)先遍歷策略用以提取下載網(wǎng)頁中的連接,并插入待抓取URL隊(duì)列的末尾。
優(yōu)選地,所述步驟S02中,反向鏈接數(shù)策略用以獲取下載網(wǎng)頁中其他網(wǎng)頁鏈接的數(shù)量,根據(jù)網(wǎng)頁鏈接數(shù)量的由高到低排列至頁面待抓取隊(duì)列。
優(yōu)選地,所述下載網(wǎng)頁提取的信息包括:目標(biāo)URL、頁面類型、下載頁面保存路徑、動(dòng)態(tài)頁面延遲加載所使用的JavaScript函數(shù)名、頁面分析類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽云融信息技術(shù)有限公司,未經(jīng)安徽云融信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811391944.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種模板相關(guān)匹配方法
- 基于Bayer格式的圖像匹配方法及圖像匹配裝置
- 一種自適應(yīng)閾值多目標(biāo)SIFT匹配算法實(shí)現(xiàn)方法
- 一種網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的優(yōu)化方法
- 一種快速物體匹配算法
- 一種目標(biāo)圖案查找方法及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于自適應(yīng)變異的天牛群優(yōu)化算法的模板匹配方法
- 一種兩階段雙校核有界偏相關(guān)的實(shí)時(shí)模板匹配方法
- 一種基于FPGA的模板匹配目標(biāo)追蹤方法及追蹤系統(tǒng)
- 一種基于KMP算法的單模板工作流優(yōu)化方法
- 一種網(wǎng)絡(luò)爬蟲運(yùn)行異常監(jiān)控方法和系統(tǒng)
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通用的網(wǎng)絡(luò)爬蟲模型實(shí)現(xiàn)方法及系統(tǒng)
- 一種網(wǎng)絡(luò)爬蟲方法及系統(tǒng)
- 可視化網(wǎng)絡(luò)爬蟲方法及裝置
- 網(wǎng)絡(luò)爬蟲系統(tǒng)的測試方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 一種分布式爬蟲系統(tǒng)及其實(shí)現(xiàn)方法
- 網(wǎng)絡(luò)爬蟲平臺(tái)
- 網(wǎng)絡(luò)爬蟲的識別方法及裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種大數(shù)據(jù)防爬蟲處理方法及云平臺(tái)系統(tǒng)





