[發(fā)明專利]網(wǎng)頁爬取方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201710117896.5 | 申請(qǐng)日: | 2017-03-01 |
| 公開(公告)號(hào): | CN108536691A | 公開(公告)日: | 2018-09-14 |
| 發(fā)明(設(shè)計(jì))人: | 單長(zhǎng)美;李玲 | 申請(qǐng)(專利權(quán))人: | 中興通訊股份有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 廣東廣和律師事務(wù)所 44298 | 代理人: | 章小燕 |
| 地址: | 518000 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo)網(wǎng)站 網(wǎng)站鏈接 網(wǎng)頁 方法和裝置 鏈接 網(wǎng)站 過濾 策略過濾 存儲(chǔ)空間 雜質(zhì)數(shù)據(jù) 濾除 外鏈 帶寬 占用 配置 | ||
本發(fā)明公開了一種網(wǎng)頁爬取方法和裝置,所述方法包括以下步驟:配置爬取任務(wù)和爬取策略;所述爬取任務(wù)包括目標(biāo)網(wǎng)站,所述爬取策略包括URL限制策略;根據(jù)所述目標(biāo)網(wǎng)站生成爬取列表;依次爬取所述爬取列表中目標(biāo)網(wǎng)站的網(wǎng)頁,獲取所述網(wǎng)頁中的網(wǎng)站鏈接;根據(jù)所述URL限制策略過濾所述網(wǎng)站鏈接,以濾除所述網(wǎng)站鏈接中的無效鏈接,并將過濾后剩余的網(wǎng)站鏈接作為目標(biāo)網(wǎng)站的鏈接加入所述爬取列表中以供后續(xù)爬取。從而,通過對(duì)爬取到的外鏈進(jìn)行控制,有效過濾了無關(guān)網(wǎng)站,減少了網(wǎng)站爬取數(shù)據(jù),更大程度上定位到有用信息的爬取,既提高了爬取效率,減少了無用的雜質(zhì)數(shù)據(jù),進(jìn)而降低了對(duì)存儲(chǔ)空間的要求,又大大減少了對(duì)帶寬的占用。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁爬取方法和裝置。
背景技術(shù)
隨著網(wǎng)絡(luò)信息技術(shù)的迅猛發(fā)展,網(wǎng)站上的大數(shù)據(jù)正呈指數(shù)級(jí)形式飛速增長(zhǎng),網(wǎng)頁已經(jīng)成為海量信息的載體?,F(xiàn)有技術(shù)中,通常采用網(wǎng)絡(luò)爬蟲來抓取網(wǎng)站數(shù)據(jù)的方式來采集網(wǎng)頁中的信息。
傳統(tǒng)的網(wǎng)頁爬取方案抓取網(wǎng)站數(shù)據(jù)時(shí),采用全部爬取方式,爬取的雜質(zhì)數(shù)據(jù)通常是有效數(shù)據(jù)的十倍以上,既大大增加了對(duì)存儲(chǔ)空間的要求,也為用戶后期數(shù)據(jù)提取增加了難度。特別是網(wǎng)頁中包含大量與主題無關(guān)的網(wǎng)站鏈接,對(duì)網(wǎng)頁中所有的網(wǎng)站鏈接進(jìn)行爬取時(shí),既抓取了大量無用的雜質(zhì)數(shù)據(jù),又占用了大量的帶寬資源,因此對(duì)帶寬要求較高。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種網(wǎng)頁爬取方法和裝置,以解決傳統(tǒng)的網(wǎng)頁爬取方案對(duì)存儲(chǔ)空間和帶寬的要求較高的技術(shù)問題。
本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案如下:
根據(jù)本發(fā)明的一個(gè)方面,提供的一種網(wǎng)頁爬取方法,包括以下步驟:
配置爬取任務(wù)和爬取策略;所述爬取任務(wù)包括目標(biāo)網(wǎng)站,所述爬取策略包括URL限制策略;
根據(jù)所述目標(biāo)網(wǎng)站生成爬取列表;
依次爬取所述爬取列表中目標(biāo)網(wǎng)站的網(wǎng)頁,獲取所述網(wǎng)頁中的網(wǎng)站鏈接;
根據(jù)所述URL限制策略過濾所述網(wǎng)站鏈接,以濾除所述網(wǎng)站鏈接中的無效鏈接,并將過濾后剩余的網(wǎng)站鏈接作為目標(biāo)網(wǎng)站的鏈接加入所述爬取列表中以供后續(xù)爬取。
可選地,所述URL限制策略包括指定URL只執(zhí)行一次爬取和/或指定URL每隔預(yù)設(shè)時(shí)長(zhǎng)執(zhí)行一次爬取。
可選地,所述爬取策略還包括頻率限制策略,所述依次爬取所述爬取列表中目標(biāo)網(wǎng)站的網(wǎng)頁包括:根據(jù)所述頻率限制策略以不同的頻率爬取所述目標(biāo)網(wǎng)站的網(wǎng)頁中不同的內(nèi)容。
可選地,所述爬取策略還包括數(shù)量限制策略,所述依次爬取所述爬取列表中目標(biāo)網(wǎng)站的網(wǎng)頁包括:根據(jù)所述數(shù)量限制策略爬取所述目標(biāo)網(wǎng)站的網(wǎng)頁中預(yù)設(shè)數(shù)量的指定內(nèi)容。
可選地,所述爬取任務(wù)還包括任務(wù)每天啟停時(shí)間、任務(wù)爬取深度和任務(wù)每天循環(huán)次數(shù)及循環(huán)間隔時(shí)間中的至少一種。
可選地,所述依次爬取所述爬取列表中目標(biāo)網(wǎng)站的網(wǎng)頁包括:
抓取所述目標(biāo)網(wǎng)站的網(wǎng)頁信息;
根據(jù)預(yù)設(shè)的解析插件對(duì)所述網(wǎng)頁信息進(jìn)行去噪處理,提取出所述網(wǎng)頁信息中的有效內(nèi)容并予以存儲(chǔ)。
可選地,所述解析插件為通用解析插件或經(jīng)用戶對(duì)通用解析插件進(jìn)行二次開發(fā)后的自定義解析插件。
根據(jù)本發(fā)明的另一個(gè)方面,提供的一種網(wǎng)頁爬取裝置,所述裝置包括:
配置模塊,用于配置爬取任務(wù)和爬取策略;所述爬取任務(wù)包括目標(biāo)網(wǎng)站,所述爬取策略包括URL限制策略;
網(wǎng)頁爬取模塊,用于根據(jù)所述目標(biāo)網(wǎng)站生成爬取列表;依次爬取所述爬取列表中目標(biāo)網(wǎng)站的網(wǎng)頁,獲取所述網(wǎng)頁中的網(wǎng)站鏈接;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中興通訊股份有限公司,未經(jīng)中興通訊股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710117896.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)站快速注冊(cè)并瀏覽及管理的方法及系統(tǒng)
- 網(wǎng)站類型的檢測(cè)方法及裝置
- 網(wǎng)站搜索性能的確定方法及裝置
- 一種惡意網(wǎng)站的檢測(cè)方法、裝置及電子設(shè)備
- 一種網(wǎng)站安全檢測(cè)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 網(wǎng)站應(yīng)用框架指紋識(shí)別的方法、設(shè)備、裝置及介質(zhì)
- 一種漏洞檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種網(wǎng)站識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種網(wǎng)站自動(dòng)防護(hù)方法及系統(tǒng)
- 網(wǎng)站排名優(yōu)化方法、裝置及存儲(chǔ)介質(zhì)





