日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種主題門戶網(wǎng)站爬蟲方法在審

專利信息
申請(qǐng)?zhí)枺?/td> 202110051839.8 申請(qǐng)日: 2021-01-15
公開(公告)號(hào): CN112749315A 公開(公告)日: 2021-05-04
發(fā)明(設(shè)計(jì))人: 徐靜;韋婷婷;包先雨;黃大亮;徐天;趙清月;李妍 申請(qǐng)(專利權(quán))人: 大連海關(guān)技術(shù)中心
主分類號(hào): G06F16/951 分類號(hào): G06F16/951;G06F16/955
代理公司: 大連瑞博晟知識(shí)產(chǎn)權(quán)代理有限公司 21259 代理人: 孫麗
地址: 116000 遼*** 國(guó)省代碼: 遼寧;21
權(quán)利要求書: 查看更多 說(shuō)明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 主題 門戶 網(wǎng)站 爬蟲 方法
【說(shuō)明書】:

發(fā)明涉及網(wǎng)絡(luò)信息抓取技術(shù)領(lǐng)域,具體為一種主題門戶網(wǎng)站爬蟲方法。該方法包括網(wǎng)頁(yè)頁(yè)面鏈接分析和提取,根據(jù)主題網(wǎng)站設(shè)計(jì)正則表達(dá)式以識(shí)別出父頁(yè)和子頁(yè)鏈接;網(wǎng)頁(yè)內(nèi)容提取,對(duì)子頁(yè)鏈接下的正文內(nèi)容進(jìn)行提取,并將提取的正文內(nèi)容存儲(chǔ)到一個(gè)靜態(tài)類中;數(shù)據(jù)持久化存儲(chǔ),用于存儲(chǔ)從每個(gè)子頁(yè)鏈接中提取的正文內(nèi)容;增量抓取,針對(duì)主題網(wǎng)頁(yè)中的更新內(nèi)容進(jìn)行抓取,每次增量更新時(shí),重新提取主題網(wǎng)站首頁(yè)的鏈接,只對(duì)新鏈接進(jìn)行處理。通過(guò)本爬蟲程序獲取的頁(yè)面,幾乎無(wú)重復(fù),并且能夠精確獲取到所需的主題,并且可有效防止包含同樣內(nèi)容的網(wǎng)頁(yè)被多次下載,避免浪費(fèi)大量cpu資源,減輕數(shù)據(jù)庫(kù)存取帶來(lái)的負(fù)荷。

技術(shù)領(lǐng)域

本發(fā)明涉及網(wǎng)絡(luò)信息抓取技術(shù)領(lǐng)域,具體為一種主題門戶網(wǎng)站爬蟲方法。

背景技術(shù)

在互聯(lián)網(wǎng)的開放環(huán)境下,共享的網(wǎng)絡(luò)信息爆發(fā)式增長(zhǎng),給人們提供了大量的信息資源,然而這也帶來(lái)了巨大的挑戰(zhàn),信息的種類非常多,有效地搜集和利用好這些信息顯得越來(lái)越困難。此時(shí),搜索引擎開始誕生,通過(guò)關(guān)鍵詞搜索網(wǎng)絡(luò)信息,極大地方便了人們有效地搜索信息,能夠滿足大部分的信息需求。然而,搜索引擎大部分以水平搜索為主,這種方式的主要缺點(diǎn)是返回的搜索結(jié)果準(zhǔn)確率低下,并且含有大量的干擾信息。隨著信息多元化進(jìn)程的發(fā)展,這種搜索策略已不能滿足用戶的特定需求。

為此,網(wǎng)絡(luò)主題爬蟲應(yīng)運(yùn)而生,網(wǎng)絡(luò)主題爬蟲只針對(duì)所需求的信息進(jìn)行抓取,不僅可以極大地降低時(shí)間消耗,還能夠及時(shí)獲取到更新的內(nèi)容,并且所獲取的信息會(huì)更加精確和全面,大大地減少了干擾信息,但現(xiàn)在網(wǎng)絡(luò)主題爬蟲系統(tǒng)需要解決的一個(gè)重要問(wèn)題是防止包含同樣內(nèi)容的網(wǎng)頁(yè)被多次下載,避免浪費(fèi)大量cpu資源,減輕數(shù)據(jù)庫(kù)存取帶來(lái)的負(fù)荷。

發(fā)明內(nèi)容

為解決上述現(xiàn)在網(wǎng)絡(luò)主題爬蟲系統(tǒng)一次抓取包含同樣內(nèi)容的網(wǎng)頁(yè)被多次下載,浪費(fèi)大量cpu資源,對(duì)數(shù)據(jù)庫(kù)存取會(huì)增加負(fù)荷的問(wèn)題,本發(fā)明針對(duì)主題門戶網(wǎng)站爬蟲系統(tǒng)中的內(nèi)容抓取和增量更新兩個(gè)環(huán)節(jié)的進(jìn)行去重,提出了一種高效的去重策略,在性能以及可擴(kuò)展性上優(yōu)于傳統(tǒng)方法。

本發(fā)明為實(shí)現(xiàn)上述目的所采用的技術(shù)方案是:一種主題門戶網(wǎng)站爬蟲方法,包括

網(wǎng)頁(yè)頁(yè)面鏈接分析和提取:根據(jù)主題網(wǎng)站設(shè)計(jì)正則表達(dá)式以識(shí)別出父頁(yè)和子頁(yè)鏈接,并且判斷該頁(yè)面是否屬于主題網(wǎng)站內(nèi)的鏈接,只對(duì)主題網(wǎng)站內(nèi)的鏈接進(jìn)行處理,若識(shí)別出為父頁(yè),則對(duì)父頁(yè)中的子頁(yè)鏈接進(jìn)行提取,若識(shí)別出為子頁(yè),則對(duì)子頁(yè)的正文內(nèi)容進(jìn)行提取;

網(wǎng)頁(yè)內(nèi)容提取:對(duì)子頁(yè)鏈接下的正文內(nèi)容進(jìn)行提取,并將提取的正文內(nèi)容存儲(chǔ)到一個(gè)靜態(tài)類中,成功抽取后即退出;

數(shù)據(jù)持久化存儲(chǔ):用于存儲(chǔ)從每個(gè)子頁(yè)鏈接中提取的正文內(nèi)容;

增量抓取:針對(duì)主題網(wǎng)站中的更新內(nèi)容進(jìn)行抓取,每次增量更新時(shí),重新提取主題網(wǎng)站首頁(yè)的鏈接,只對(duì)新鏈接進(jìn)行處理。

進(jìn)一步的,所述網(wǎng)頁(yè)內(nèi)容提取中,對(duì)于網(wǎng)頁(yè)下找到的所有正文格式,先找到一種格式,從所有頁(yè)面提取到正文,再存入數(shù)據(jù)庫(kù)中,此時(shí)不同格式的正文字段在數(shù)據(jù)庫(kù)中即為空,再反向從空正文字符的鏈接中查看其格式,編寫對(duì)應(yīng)的提取代碼,再循環(huán)多次,即可找到所有的格式,從而設(shè)計(jì)對(duì)應(yīng)的xpath語(yǔ)法,將所有xpath格式保存在一個(gè)list中,通過(guò)遍歷list進(jìn)行正文內(nèi)容提取,成功提取后即退出循環(huán),并將該提取過(guò)程定義為一個(gè)靜態(tài)類。

進(jìn)一步的,所述增量抓取中,通過(guò)輸入種子鏈接,判斷該種子鏈接是否為父頁(yè),如果是父頁(yè),則從父頁(yè)中提取新的子頁(yè)鏈接放入待抓取隊(duì)列中,程序結(jié)束,之后進(jìn)行網(wǎng)頁(yè)內(nèi)容抓取;如果不是父頁(yè),則是子頁(yè),此時(shí)判斷子頁(yè)鏈接的正文內(nèi)容是否已經(jīng)提取,如果已經(jīng)提取,則結(jié)束程序,如果沒(méi)有提取,則將鏈接放入待抓取隊(duì)列中,對(duì)鏈接下的正文內(nèi)容進(jìn)行提取,提取后的內(nèi)容進(jìn)行數(shù)據(jù)持久化存儲(chǔ),程序結(jié)束。

進(jìn)一步的,所述增量抓取中,通過(guò)布隆過(guò)濾器來(lái)篩選判斷增量更新的網(wǎng)址鏈接。

進(jìn)一步的,所述布隆過(guò)濾器中采用BitSet函數(shù)和hash函數(shù)配合使用對(duì)增量更新的網(wǎng)址鏈接進(jìn)行判斷,其中將BitSet函數(shù)定義為靜態(tài)私有變量。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連海關(guān)技術(shù)中心,未經(jīng)大連海關(guān)技術(shù)中心許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110051839.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說(shuō)明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 国产精品久久久久99| 精品少妇一区二区三区| 日本xxxxxxxxx68护士| 欧美一区二区三区免费视频| 中文字幕欧美久久日高清| 日韩av三区| 97精品国产97久久久久久粉红| 午夜精品影视| 久久夜色精品久久噜噜亚| 亚洲精品一区中文字幕| 欧美一区二区三区日本| 欧美在线视频三区| 亚洲va国产2019| 久久激情网站| 日韩精品中文字幕一区| 大伊人av| 激情欧美日韩| 免费精品一区二区三区视频日产| 国产在线一卡| 鲁一鲁一鲁一鲁一鲁一av| 狠狠色综合久久丁香婷婷 | 久久99精品国产| 国产精品国外精品| 亚洲欧美日韩三区| 国产呻吟久久久久久久92| 日本美女视频一区二区三区| 少妇性色午夜淫片aaa播放5| 国产呻吟久久久久久久92| 国产一区二区在| 羞羞免费视频网站| 免费看农村bbwbbw高潮| 免费高潮又黄又色又爽视频| 美国三级日本三级久久99 | 中文字幕视频一区二区| 久热精品视频在线| 国产乱码一区二区| 国产亚洲精品久久久久久久久动漫| 国产精品视频tv| 丰满岳乱妇bd在线观看k8| 亚洲乱亚洲乱妇50p| 国产一区亚洲一区| 浪潮av色| 国产欧美日韩va另类在线播放| 国产一区二区黄| 欧美精品在线观看视频| 国产97久久| 国产精品对白刺激在线观看 | 久久国产免费视频| 日韩av在线高清| 亚洲国产精品第一区二区| 日韩av免费网站| 久久三级精品| 91精品色| 欧美亚洲精品suv一区| 99国产精品久久久久老师| 国产不卡网站| 片毛片免费看| 欧美激情视频一区二区三区免费| 国产精品美女久久久免费| 玖玖爱国产精品| 二区三区视频| 99久久夜色精品国产网站| 狠狠躁天天躁又黄又爽| 久久九精品| 97人人澡人人添人人爽超碰| 国内久久精品视频| 97视频久久久| 久久国产欧美日韩精品| 免费看欧美中韩毛片影院| 国产在线精品区| 国产精品视频1区| 国产精品国产三级国产专区55 | 国产精品日本一区二区不卡视频 | 国产精品高清一区| 国产suv精品一区二区4| 国模少妇一区二区三区| 欧美日韩三区| 国产三级一区二区| 欧美午夜精品一区二区三区| 国产精品二十区| 亚洲国产视频一区二区三区| 国产精品久久91| 久久密av| 日韩精品一区二区中文字幕| 91久久精品久久国产性色也91| 日韩三区三区一区区欧69国产| 国产精品久久久久免费a∨大胸| 国产精品对白刺激在线观看| 日韩一区二区福利视频| 91麻豆精品国产91久久久资源速度 | 狠狠躁夜夜| 久久青草欧美一区二区三区| 国产精品久久久久久久久久久久久久久久| 天干天干天啪啪夜爽爽99| 午夜亚洲国产理论片一二三四| 老太脱裤子让老头玩xxxxx| 在线国产一区二区三区| 狠狠色噜噜狠狠狠狠69| 欧美日韩国产三区| 88888888国产一区二区| 欧美一区免费| 狠狠躁天天躁又黄又爽| 欧美一区二区三区白人| 午夜片在线| 国产高清在线精品一区二区三区| 97精品国产97久久久久久粉红| 精品国产一区在线| 久久久久亚洲精品视频| 99热一区二区| 久久精品国产亚洲一区二区| 国产精品日韩一区二区三区| 欧美精品第一区| 欧美精品综合视频| 国产床戏无遮挡免费观看网站 | 欧美高清xxxxx| 久久国产精品麻豆| 午夜av片| 午夜伦情电午夜伦情电影| 国产人成看黄久久久久久久久| av素人在线| 久久久久久久国产| 久久99久国产精品黄毛片入口 | 日本少妇一区二区三区| 午夜色大片| 国产区91| 日韩中文字幕亚洲精品欧美| 午夜影皖精品av在线播放| 日韩欧美国产精品一区| 国产精品一区二区日韩新区| 国产区一区| 免费毛片a| 亚洲精品日韩在线| 99精品视频一区二区| 精品国产九九| 国产精品国精产品一二三区| 国产91清纯白嫩初高中在线观看| 国产极品美女高潮无套久久久| 国产精品高潮呻吟久| 精品国产乱码久久久久久久久| 欧美精品久| 国产欧美一区二区在线| 国产精品一区二区日韩新区| 99精品国产一区二区三区麻豆| 91精品一区二区中文字幕| 日韩一区二区精品| 91精品福利在线| 国产精品国精产品一二三区| 欧美日韩激情一区| 日韩a一级欧美一级在线播放| 国产精品九九九九九九| 日日夜夜亚洲精品| 欧美亚洲精品suv一区| 国产欧美精品va在线观看| 国产精品午夜一区二区| 国产白丝一区二区三区| 国产一区二区麻豆| 久久久久国产亚洲| 99国产精品99久久久久久粉嫩| 欧美日韩一区二区三区四区五区| 美女直播一区二区三区| 在线国产91| 亚洲福利视频二区| 国产精品亚洲二区| 一区二区欧美视频| 激情久久一区| 国产亚洲精品久久19p| 精品国产免费久久| 欧美在线免费观看一区| 午夜性电影| 69久久夜色精品国产69乱青草 | 久久久久久久久久国产精品| 夜夜嗨av禁果av粉嫩av懂色av| 国产精品久久久久免费a∨大胸| 久久国产精品视频一区| 私人影院av| 中文字幕欧美日韩一区| 亚洲精品97久久久babes| 午夜特片网| 91国偷自产中文字幕婷婷| 精品国精品国产自在久不卡| 午夜av免费观看| 女女百合互慰av| 亚洲1区在线观看| 狠狠色噜噜狠狠狠狠米奇7777| 国产精品亚发布| 日本护士hd高潮护士| 国产精品一区在线播放| 亚洲精品国产主播一区| 日韩欧美中文字幕一区| 国产精品1区2区| 日韩一区国产| 少妇性色午夜淫片aaa播放5| 538国产精品一区二区免费视频| 免费观看黄色毛片| 99精品国产一区二区三区麻豆| 久久99亚洲精品久久99果| 91精品一区二区中文字幕| 国产精品1区二区| 电影91久久久| 欧美乱妇高清无乱码一级特黄| 欧美在线视频二区| 国产精品伦一区二区三区在线观看| 精品国产一区二区三区国产馆杂枝| 91精品福利观看| 日韩欧美中文字幕一区| 国产视频精品一区二区三区| 中出乱码av亚洲精品久久天堂| 少妇厨房与子伦在线观看| 99精品少妇| 久久99精品国产| 国内久久精品视频| 蜜臀久久精品久久久用户群体| 国产精品电影免费观看| 狠狠色噜噜狠狠狠狠米奇777| 国产欧美一区二区三区不卡高清| 精品国产九九九 | 欧美日韩亚洲另类| 国产99久久九九精品| 久久精品一二三四| 激情久久久| 国产欧美一区二区三区视频| 99日韩精品视频| 欧美亚洲视频一区二区| 中文字幕久久精品一区| 日韩av在线一区| 精品国产伦一区二区三区免费 | 久久国产这里只有精品| 精品国产一区二区三区麻豆免费观看完整版 | 日韩精品福利片午夜免费观看| 91热国产| 国产精品一区二区在线观看免费 | 欧美精品亚洲一区| 免费欧美一级视频| 午夜看大片| 午夜电影院理论片做爰| 亚洲精品日本无v一区| 欧美老肥婆性猛交视频| 狠狠色噜噜狠狠狠狠| 欧美日韩一区免费| 日本免费电影一区二区| 欧洲激情一区二区| 欧美69精品久久久久久不卡| 国产一区二区免费电影| xxxxx色| 久久夜靖品2区| 中文字幕日本精品一区二区三区|