[發(fā)明專利]一種主題門戶網(wǎng)站爬蟲方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110051839.8 | 申請(qǐng)日: | 2021-01-15 |
| 公開(公告)號(hào): | CN112749315A | 公開(公告)日: | 2021-05-04 |
| 發(fā)明(設(shè)計(jì))人: | 徐靜;韋婷婷;包先雨;黃大亮;徐天;趙清月;李妍 | 申請(qǐng)(專利權(quán))人: | 大連海關(guān)技術(shù)中心 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/955 |
| 代理公司: | 大連瑞博晟知識(shí)產(chǎn)權(quán)代理有限公司 21259 | 代理人: | 孫麗 |
| 地址: | 116000 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 主題 門戶 網(wǎng)站 爬蟲 方法 | ||
本發(fā)明涉及網(wǎng)絡(luò)信息抓取技術(shù)領(lǐng)域,具體為一種主題門戶網(wǎng)站爬蟲方法。該方法包括網(wǎng)頁(yè)頁(yè)面鏈接分析和提取,根據(jù)主題網(wǎng)站設(shè)計(jì)正則表達(dá)式以識(shí)別出父頁(yè)和子頁(yè)鏈接;網(wǎng)頁(yè)內(nèi)容提取,對(duì)子頁(yè)鏈接下的正文內(nèi)容進(jìn)行提取,并將提取的正文內(nèi)容存儲(chǔ)到一個(gè)靜態(tài)類中;數(shù)據(jù)持久化存儲(chǔ),用于存儲(chǔ)從每個(gè)子頁(yè)鏈接中提取的正文內(nèi)容;增量抓取,針對(duì)主題網(wǎng)頁(yè)中的更新內(nèi)容進(jìn)行抓取,每次增量更新時(shí),重新提取主題網(wǎng)站首頁(yè)的鏈接,只對(duì)新鏈接進(jìn)行處理。通過(guò)本爬蟲程序獲取的頁(yè)面,幾乎無(wú)重復(fù),并且能夠精確獲取到所需的主題,并且可有效防止包含同樣內(nèi)容的網(wǎng)頁(yè)被多次下載,避免浪費(fèi)大量cpu資源,減輕數(shù)據(jù)庫(kù)存取帶來(lái)的負(fù)荷。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息抓取技術(shù)領(lǐng)域,具體為一種主題門戶網(wǎng)站爬蟲方法。
背景技術(shù)
在互聯(lián)網(wǎng)的開放環(huán)境下,共享的網(wǎng)絡(luò)信息爆發(fā)式增長(zhǎng),給人們提供了大量的信息資源,然而這也帶來(lái)了巨大的挑戰(zhàn),信息的種類非常多,有效地搜集和利用好這些信息顯得越來(lái)越困難。此時(shí),搜索引擎開始誕生,通過(guò)關(guān)鍵詞搜索網(wǎng)絡(luò)信息,極大地方便了人們有效地搜索信息,能夠滿足大部分的信息需求。然而,搜索引擎大部分以水平搜索為主,這種方式的主要缺點(diǎn)是返回的搜索結(jié)果準(zhǔn)確率低下,并且含有大量的干擾信息。隨著信息多元化進(jìn)程的發(fā)展,這種搜索策略已不能滿足用戶的特定需求。
為此,網(wǎng)絡(luò)主題爬蟲應(yīng)運(yùn)而生,網(wǎng)絡(luò)主題爬蟲只針對(duì)所需求的信息進(jìn)行抓取,不僅可以極大地降低時(shí)間消耗,還能夠及時(shí)獲取到更新的內(nèi)容,并且所獲取的信息會(huì)更加精確和全面,大大地減少了干擾信息,但現(xiàn)在網(wǎng)絡(luò)主題爬蟲系統(tǒng)需要解決的一個(gè)重要問(wèn)題是防止包含同樣內(nèi)容的網(wǎng)頁(yè)被多次下載,避免浪費(fèi)大量cpu資源,減輕數(shù)據(jù)庫(kù)存取帶來(lái)的負(fù)荷。
發(fā)明內(nèi)容
為解決上述現(xiàn)在網(wǎng)絡(luò)主題爬蟲系統(tǒng)一次抓取包含同樣內(nèi)容的網(wǎng)頁(yè)被多次下載,浪費(fèi)大量cpu資源,對(duì)數(shù)據(jù)庫(kù)存取會(huì)增加負(fù)荷的問(wèn)題,本發(fā)明針對(duì)主題門戶網(wǎng)站爬蟲系統(tǒng)中的內(nèi)容抓取和增量更新兩個(gè)環(huán)節(jié)的進(jìn)行去重,提出了一種高效的去重策略,在性能以及可擴(kuò)展性上優(yōu)于傳統(tǒng)方法。
本發(fā)明為實(shí)現(xiàn)上述目的所采用的技術(shù)方案是:一種主題門戶網(wǎng)站爬蟲方法,包括
網(wǎng)頁(yè)頁(yè)面鏈接分析和提取:根據(jù)主題網(wǎng)站設(shè)計(jì)正則表達(dá)式以識(shí)別出父頁(yè)和子頁(yè)鏈接,并且判斷該頁(yè)面是否屬于主題網(wǎng)站內(nèi)的鏈接,只對(duì)主題網(wǎng)站內(nèi)的鏈接進(jìn)行處理,若識(shí)別出為父頁(yè),則對(duì)父頁(yè)中的子頁(yè)鏈接進(jìn)行提取,若識(shí)別出為子頁(yè),則對(duì)子頁(yè)的正文內(nèi)容進(jìn)行提取;
網(wǎng)頁(yè)內(nèi)容提取:對(duì)子頁(yè)鏈接下的正文內(nèi)容進(jìn)行提取,并將提取的正文內(nèi)容存儲(chǔ)到一個(gè)靜態(tài)類中,成功抽取后即退出;
數(shù)據(jù)持久化存儲(chǔ):用于存儲(chǔ)從每個(gè)子頁(yè)鏈接中提取的正文內(nèi)容;
增量抓取:針對(duì)主題網(wǎng)站中的更新內(nèi)容進(jìn)行抓取,每次增量更新時(shí),重新提取主題網(wǎng)站首頁(yè)的鏈接,只對(duì)新鏈接進(jìn)行處理。
進(jìn)一步的,所述網(wǎng)頁(yè)內(nèi)容提取中,對(duì)于網(wǎng)頁(yè)下找到的所有正文格式,先找到一種格式,從所有頁(yè)面提取到正文,再存入數(shù)據(jù)庫(kù)中,此時(shí)不同格式的正文字段在數(shù)據(jù)庫(kù)中即為空,再反向從空正文字符的鏈接中查看其格式,編寫對(duì)應(yīng)的提取代碼,再循環(huán)多次,即可找到所有的格式,從而設(shè)計(jì)對(duì)應(yīng)的xpath語(yǔ)法,將所有xpath格式保存在一個(gè)list中,通過(guò)遍歷list進(jìn)行正文內(nèi)容提取,成功提取后即退出循環(huán),并將該提取過(guò)程定義為一個(gè)靜態(tài)類。
進(jìn)一步的,所述增量抓取中,通過(guò)輸入種子鏈接,判斷該種子鏈接是否為父頁(yè),如果是父頁(yè),則從父頁(yè)中提取新的子頁(yè)鏈接放入待抓取隊(duì)列中,程序結(jié)束,之后進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取;如果不是父頁(yè),則是子頁(yè),此時(shí)判斷子頁(yè)鏈接的正文內(nèi)容是否已經(jīng)提取,如果已經(jīng)提取,則結(jié)束程序,如果沒(méi)有提取,則將鏈接放入待抓取隊(duì)列中,對(duì)鏈接下的正文內(nèi)容進(jìn)行提取,提取后的內(nèi)容進(jìn)行數(shù)據(jù)持久化存儲(chǔ),程序結(jié)束。
進(jìn)一步的,所述增量抓取中,通過(guò)布隆過(guò)濾器來(lái)篩選判斷增量更新的網(wǎng)址鏈接。
進(jìn)一步的,所述布隆過(guò)濾器中采用BitSet函數(shù)和hash函數(shù)配合使用對(duì)增量更新的網(wǎng)址鏈接進(jìn)行判斷,其中將BitSet函數(shù)定義為靜態(tài)私有變量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連海關(guān)技術(shù)中心,未經(jīng)大連海關(guān)技術(shù)中心許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110051839.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測(cè)方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識(shí)別方法及裝置
- 網(wǎng)站風(fēng)險(xiǎn)評(píng)估方法及裝置
- 網(wǎng)站版權(quán)時(shí)間的管理方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識(shí)別方法
- 網(wǎng)站應(yīng)用框架指紋識(shí)別的方法、設(shè)備、裝置及介質(zhì)
- 檢測(cè)反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過(guò)爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





