[發(fā)明專利]一種網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)的優(yōu)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 201811391944.0 | 申請(qǐng)日: | 2018-11-21 |
| 公開(kāi)(公告)號(hào): | CN109299392A | 公開(kāi)(公告)日: | 2019-02-01 |
| 發(fā)明(設(shè)計(jì))人: | 胡翔 | 申請(qǐng)(專利權(quán))人: | 安徽云融信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/955 |
| 代理公司: | 上海精晟知識(shí)產(chǎn)權(quán)代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市高新區(qū)*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 抓取 模板匹配算法 網(wǎng)絡(luò)爬蟲(chóng) 資源庫(kù) 反向鏈接 目標(biāo)數(shù)據(jù) 匹配 模板數(shù)據(jù)存儲(chǔ) 深度優(yōu)先遍歷 網(wǎng)絡(luò)數(shù)據(jù)傳輸 策略建立 存儲(chǔ)資源 寬度優(yōu)先 模板存儲(chǔ) 模板數(shù)據(jù) 目標(biāo)網(wǎng)站 匹配成功 深度優(yōu)化 數(shù)據(jù)通過(guò) 算法策略 無(wú)效數(shù)據(jù) 質(zhì)量模板 模板庫(kù) 冗余 遍歷 優(yōu)化 篩選 | ||
1.一種網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)的優(yōu)化方法,其特征在于,包括如下步驟:
步驟S01:建立高質(zhì)量模板資源庫(kù)及模板匹配算法;
步驟S02:通過(guò)深度優(yōu)先遍歷策略及反向鏈接數(shù)策略篩選符合目標(biāo)數(shù)據(jù)URL,建立初級(jí)URL隊(duì)列;
步驟S03:將初級(jí)URL隊(duì)列數(shù)據(jù)通過(guò)寬度優(yōu)先算法策略抓取相應(yīng)目標(biāo)網(wǎng)站數(shù)據(jù);
步驟S04:根據(jù)模板匹配算法,將目標(biāo)數(shù)據(jù)同模板存儲(chǔ)資源庫(kù)中的模板數(shù)據(jù)進(jìn)行匹配;
步驟S05:匹配成功的模板數(shù)據(jù)存儲(chǔ)至資源庫(kù)。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)的優(yōu)化方法,其特征在于,所述步驟S02中,深度優(yōu)先遍歷策略用以提取下載網(wǎng)頁(yè)中的連接,并插入待抓取URL隊(duì)列的末尾。
3.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)的優(yōu)化方法,其特征在于,所述步驟S02中,反向鏈接數(shù)策略用以獲取下載網(wǎng)頁(yè)中其他網(wǎng)頁(yè)鏈接的數(shù)量,根據(jù)網(wǎng)頁(yè)鏈接數(shù)量的由高到低排列至頁(yè)面待抓取隊(duì)列。
4.根據(jù)權(quán)利要求2所述的一種網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)的優(yōu)化方法,其特征在于,所述下載網(wǎng)頁(yè)提取的信息包括:目標(biāo)URL、頁(yè)面類型、下載頁(yè)面保存路徑、動(dòng)態(tài)頁(yè)面延遲加載所使用的JavaScript函數(shù)名、頁(yè)面分析類型。
5.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)的優(yōu)化方法,其特征在于,所述步驟S04中,模板匹配算法通過(guò)過(guò)濾器將抓取的目標(biāo)數(shù)據(jù)與資源庫(kù)中的模板進(jìn)行比對(duì)去重,過(guò)濾器中建立有一白名單模塊,白名單對(duì)不確定URL地址進(jìn)行存儲(chǔ)。
6.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)的優(yōu)化方法,其特征在于,所述步驟S05中,資源庫(kù)采用HDFS的分布式儲(chǔ)存方式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽云融信息技術(shù)有限公司,未經(jīng)安徽云融信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811391944.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種模板相關(guān)匹配方法
- 基于Bayer格式的圖像匹配方法及圖像匹配裝置
- 一種自適應(yīng)閾值多目標(biāo)SIFT匹配算法實(shí)現(xiàn)方法
- 一種網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)的優(yōu)化方法
- 一種快速物體匹配算法
- 一種目標(biāo)圖案查找方法及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于自適應(yīng)變異的天牛群優(yōu)化算法的模板匹配方法
- 一種兩階段雙校核有界偏相關(guān)的實(shí)時(shí)模板匹配方法
- 一種基于FPGA的模板匹配目標(biāo)追蹤方法及追蹤系統(tǒng)
- 一種基于KMP算法的單模板工作流優(yōu)化方法
- 一種網(wǎng)絡(luò)爬蟲(chóng)運(yùn)行異常監(jiān)控方法和系統(tǒng)
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲(chóng)的方法、裝置和系統(tǒng)
- 一種通用的網(wǎng)絡(luò)爬蟲(chóng)模型實(shí)現(xiàn)方法及系統(tǒng)
- 一種網(wǎng)絡(luò)爬蟲(chóng)方法及系統(tǒng)
- 可視化網(wǎng)絡(luò)爬蟲(chóng)方法及裝置
- 網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的測(cè)試方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 一種分布式爬蟲(chóng)系統(tǒng)及其實(shí)現(xiàn)方法
- 網(wǎng)絡(luò)爬蟲(chóng)平臺(tái)
- 網(wǎng)絡(luò)爬蟲(chóng)的識(shí)別方法及裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種大數(shù)據(jù)防爬蟲(chóng)處理方法及云平臺(tái)系統(tǒng)





