日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種分布式爬蟲引擎的URL抓取方法及系統(tǒng)有效

專利信息
申請?zhí)枺?/td> 201611037722.X 申請日: 2016-11-23
公開(公告)號: CN106776768B 公開(公告)日: 2018-02-02
發(fā)明(設(shè)計(jì))人: 王琦;林子忠;歐偉;茅曉萍 申請(專利權(quán))人: 福建六壬網(wǎng)安股份有限公司
主分類號: G06F17/30 分類號: G06F17/30;G06F9/50
代理公司: 福州科揚(yáng)專利事務(wù)所35001 代理人: 徐開翟
地址: 350015 福建省福州市*** 國省代碼: 福建;35
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 分布式 爬蟲 引擎 url 抓取 方法 系統(tǒng)
【說明書】:

技術(shù)領(lǐng)域

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種分布式爬蟲引擎的URL抓取方法及系統(tǒng)。

背景技術(shù)

隨著互聯(lián)網(wǎng)信息爆炸式增長,用戶感興趣的信息淹沒于大量無關(guān)信息中,利用搜索引擎獲取感興趣的信息已經(jīng)成為人們獲取信息較為便捷的方式。作為搜索引擎基礎(chǔ)構(gòu)件之一的網(wǎng)絡(luò)爬蟲,需要直接面向互聯(lián)網(wǎng),不間斷的從互聯(lián)網(wǎng)上搜集信息,為搜索引擎提供數(shù)據(jù)來源。搜索的信息是否準(zhǔn)確均與網(wǎng)絡(luò)爬蟲緊密相關(guān)。然而互聯(lián)網(wǎng)規(guī)模十分龐大,網(wǎng)站數(shù)目眾多,網(wǎng)頁數(shù)量幾千億,如此海量的數(shù)據(jù)對網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)提出了更高的要求,構(gòu)件分布式網(wǎng)絡(luò)爬蟲系統(tǒng)是一個(gè)有效的解決方案。網(wǎng)絡(luò)爬蟲是一個(gè)機(jī)器人程序,它從指定URL地址開始下載頁面文檔,提取其中的URL地址,再從提取的URL地址開始繼續(xù)爬行。

傳統(tǒng)的分布式爬蟲引擎主要是主從式,即有一臺專門的主服務(wù)器來維護(hù)待抓取URL隊(duì)列,它負(fù)責(zé)每次將URL分發(fā)到不同的從服務(wù)器,而從服務(wù)器則負(fù)責(zé)實(shí)際的網(wǎng)頁抓取工作。主服務(wù)器除了維護(hù)待抓取URL隊(duì)列以及分發(fā)URL之外,還要負(fù)責(zé)調(diào)解各個(gè)從服務(wù)器的負(fù)載情況,以免某些從服務(wù)器過于清閑或者勞累。這種模式下,主服務(wù)器往往容易成為系統(tǒng)瓶頸。

在申請?zhí)枮?01210090259.0中國專利中,公開了一種分布式網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法,通過引入虛擬爬蟲結(jié)點(diǎn)實(shí)現(xiàn)了高效的任務(wù)劃分策略,從而更好的適應(yīng)分布式網(wǎng)絡(luò)爬蟲系統(tǒng)中實(shí)際爬行結(jié)點(diǎn)的動態(tài)變化,在任務(wù)劃分策略基礎(chǔ)上使用一種分布式的URL去重方式,從而避免實(shí)際爬行結(jié)點(diǎn)變化過程中造成的重復(fù)爬行。該發(fā)明在任務(wù)劃分時(shí)變動規(guī)模小,能保證爬蟲系統(tǒng)穩(wěn)定持久運(yùn)行,劃分策略具有動態(tài)適應(yīng)性,能實(shí)現(xiàn)實(shí)際爬行結(jié)點(diǎn)的負(fù)載均衡,但是其無法解決高并發(fā)時(shí)爬蟲引擎抓取URL效率的問題。

在申請?zhí)枮?01210425213.X的中國專利中,公開了一種分布式網(wǎng)絡(luò)爬蟲的URL排重系統(tǒng)及方法,所述系統(tǒng)包括爬蟲采集子節(jié)點(diǎn),中心服務(wù)器及數(shù)據(jù)庫服務(wù)器。所述方法包括爬蟲采集子節(jié)點(diǎn)在中心服務(wù)器上進(jìn)行注冊;爬蟲采集子節(jié)點(diǎn)從數(shù)據(jù)庫等待隊(duì)列中獲取URL,從此URL獲取新的URL信息;爬蟲采集子節(jié)點(diǎn)對新獲取的URL進(jìn)行一級排重,如一級排重未通過,則放棄該URL;如一級排重通過,將新獲取的URL加入本地URL摘要表并發(fā)送給中心服務(wù)器;中心服務(wù)器對新獲取的URL進(jìn)行二級排重,如二級排重通過,將URL加入全局URL摘要表;爬蟲采集子節(jié)點(diǎn)將該URL的鏈接加入到等待隊(duì)列中。該發(fā)明提供的方法通過分級排重機(jī)制可以將原來集中在中心節(jié)點(diǎn)進(jìn)行的排重任務(wù)通過一級排重分解到各爬蟲采集子節(jié)點(diǎn),中心服務(wù)器通過二級排重的方式維護(hù)一張全局排重表格。上述方法無法解決高并發(fā)時(shí)爬蟲引擎抓取URL效率的問題以及無法解決分布式爬蟲任務(wù)負(fù)載均衡問題。

發(fā)明內(nèi)容

本發(fā)明的目的在于,提出一種能夠提高高并發(fā)時(shí)爬蟲引擎抓取URL效率并解決分布式爬蟲任務(wù)負(fù)載均衡的分布式爬蟲引擎的URL抓取方法及系統(tǒng),解決現(xiàn)有爬蟲引擎效率低,負(fù)載不均衡的問題。

為了實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案為:

一種分布式爬蟲引擎的URL抓取方法,包括如下步驟:

S100:采集URL任務(wù)并存儲;

S200:基于網(wǎng)站哈希值的任務(wù)劃分策略,將具有相同域名的URL集合分配給同一節(jié)點(diǎn)進(jìn)行爬取,并匯總爬取結(jié)果;

S300:將所爬取的URL任務(wù)所對應(yīng)的原始網(wǎng)頁進(jìn)行分布式并行聚類,去除噪聲URL任務(wù);

S400:消除去除噪聲后的URL任務(wù)內(nèi)重復(fù)的URL任務(wù);

S500:判斷已經(jīng)過消除重復(fù)的URL任務(wù)已抓取層數(shù)是否小于預(yù)設(shè)值,若是則返回步驟S300;若否則執(zhí)行步驟S600;

S600:將每一層抓取的URL任務(wù)對應(yīng)的原始網(wǎng)頁進(jìn)行合并;

在步驟S300中,在進(jìn)行分布式并行聚類之前還包括,應(yīng)用網(wǎng)頁的DOM樹結(jié)構(gòu)初步去除噪聲URL任務(wù),包括:

S301:利用<td>、<p>、<div>html標(biāo)簽對頁面進(jìn)行分割,去掉一些與渲染相關(guān)但是同URL任務(wù)無關(guān)的標(biāo)簽;

S302:利用鏈接文字比率來對噪聲鏈接進(jìn)行定位,若節(jié)點(diǎn)的文字比率高于1/4則將該節(jié)點(diǎn)所在的鏈接判定為初始噪聲鏈接并去除;

在步驟S300中,所述分布式并行聚類,去除噪聲URL任務(wù)包括如下步驟:

S311:采用映射歸約方式對原始網(wǎng)頁進(jìn)行域名解析,進(jìn)行初步分塊;

S312:將各個(gè)塊進(jìn)行singlepass聚類,并采用映射歸約的方式將聚類結(jié)果分成多個(gè)族;

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建六壬網(wǎng)安股份有限公司,未經(jīng)福建六壬網(wǎng)安股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611037722.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产午夜伦理片| 国产69精品99久久久久久宅男| 素人av在线| 性色av色香蕉一区二区| 欧美日韩国产精品综合| 精品久久久综合| 91午夜精品一区二区三区| 欧美国产一区二区在线| 亚洲国产精品国自产拍av| 久久久99精品国产一区二区三区 | 久久99精| 色偷偷一区二区三区| 国产精品电影免费观看| 国产91视频一区| 久久国产中文字幕| 欧美激情视频一区二区三区免费| 久久人做人爽一区二区三区小说| 国内视频一区二区三区| 国产亚洲综合一区二区| 欧美一级久久久| 日韩中文字幕区一区有砖一区| 福利片一区二区三区| 欧美高清性xxxxhdvideos| 强制中出し~大桥未久10在线播放| 国产1区2| 国产日韩一区在线| 国产精品美女久久久免费| 综合在线一区| 国产精品视频二区不卡| 国产精品久久久综合久尹人久久9| 国产精品日本一区二区不卡视频| 午夜av在线电影| 国产精品欧美一区二区三区奶水| 亚洲欧美色图在线| 国产精品综合在线| 日韩精品免费一区二区三区| 大伊人av| 综合国产一区| 亚洲福利视频一区| 午夜av免费观看| 日本伦精品一区二区三区免费| 亚洲精品老司机| 一区二区欧美在线| 91精品久| 国产伦精品一区二区三区电影| 午夜剧场伦理| 久久99视频免费| 久久综合伊人77777麻豆| 香蕉视频在线观看一区二区| 午夜电影毛片| 国产精品天堂| 国产精品v欧美精品v日韩精品v| 欧美在线观看视频一区二区三区| 国产一区三区四区| 91国偷自产一区二区介绍| 四虎国产精品久久| 国语对白一区二区| 99久国产| 亚日韩精品| 午夜理伦影院| 国产精品欧美一区二区三区| 一区二区不卡在线| 欧美日韩国产免费观看| 久久天堂国产香蕉三区| 国产欧美www| 久久一级精品视频| 欧美激情片一区二区| 国产一区二区手机在线观看| 97久久国产精品| 亚洲欧美一区二区三区三高潮| 在线精品视频一区| 岛国黄色av| 99久久夜色精品国产网站| 久久精品视频3| 国产乱色国产精品播放视频| 国产一区二区高清视频| 国产电影精品一区| 国产一二区精品| 久久久午夜爽爽一区二区三区三州| 91久久国语露脸精品国产高跟 | 欧美精品乱码视频一二专区| 久久99中文字幕| 91福利试看| 爱看av在线入口| 精品久久不卡| 精品无码久久久久国产| 91夜夜夜| 精品999久久久| 国产精品国产三级国产aⅴ下载| 日韩中文字幕在线一区| 久久人人爽爽| 色吊丝av中文字幕| 久久国产精品视频一区| 免费看农村bbwbbw高潮| 96国产精品视频| 日韩精品午夜视频| 国产又色又爽无遮挡免费动态图| 国产69精品99久久久久久宅男| 欧美国产三区| 97久久精品人人澡人人爽| 美日韩一区| 久久一区二| 欧美日韩国产在线一区二区三区 | 欧美一区二区三区激情| 国产一区二| 鲁丝一区二区三区免费| 99久久国产综合精品麻豆| 久久国产欧美视频| 日本精品在线一区| 激情久久综合| 91在线一区二区| 窝窝午夜精品一区二区| 四虎精品寂寞少妇在线观看 | 国产精品一区二区不卡| 日本精品一二区| 欧美日韩国产一二三| 国产97在线播放| 国产欧美视频一区二区三区| 欧美一区二区三区爽大粗免费| 国产1区2区视频| 国产精品久久久久久久龚玥菲| 狠狠干一区| 中文字幕一二三四五区| 91精品高清| 色婷婷精品久久二区二区我来| 国产欧美日韩精品一区二区图片| 国v精品久久久网| 精品国产仑片一区二区三区| 国产一区二区三区小说| 狠狠色噜噜狠狠狠狠69| 日韩精品久久久久久久酒店| 国产精品免费一视频区二区三区| 91亚洲欧美强伦三区麻豆| 97国产婷婷综合在线视频,| 中文字幕欧美一区二区三区| 91麻豆精品国产91久久久更新时间| 国产黄色一区二区三区 | 91看片免费| 国产一区精品在线观看| 午夜激情看片| 亚洲一区欧美| 国产精品视频久久久久久| 中文字幕一区二区三区免费| 亚洲欧美日韩视频一区| 欧美一区二区三区精品免费| 99riav3国产精品视频| 国产精品国产三级国产aⅴ下载| 国产欧美一区二区三区不卡高清| 国产精品欧美久久久久一区二区| 精品福利一区| 欧美日韩精品影院| 国产精品免费专区| 国产一区二区资源| 日本亚洲国产精品| 久久精品国产精品亚洲红杏| 国产精品一二三在线观看| 国产精品欧美日韩在线| 91精品综合| 狠狠色噜噜狠狠狠狠色吗综合| 国产精品一区二区免费| 欧美日韩中文字幕一区| 国产免费一区二区三区四区| 欧美精品国产一区二区| 国产精品免费自拍| 久久久久国产精品视频| 99日韩精品视频| 国产精品久久久久久久久久久不卡| 国产一区免费在线观看| 91精品视频一区二区三区| 欧美午夜一区二区三区精美视频| 国产精品偷伦一区二区| 日本神影院一区二区三区| 国产精品久久久久久一区二区三区 | 亚洲精品国产suv| 国产欧美性| 国产盗摄91精品一区二区三区| 国产玖玖爱精品视频| 欧美一区二粉嫩精品国产一线天| 亚洲网站久久| 久久福利视频网| 久久精品手机视频| 911久久香蕉国产线看观看| 国产亚洲精品久久久456| 国产精一区二区三区| 久久精品综合| 国产呻吟高潮| 一区二区三区欧美在线| 日韩欧美精品一区二区三区经典| 亚洲四区在线| 国产精品九九九九九九九| 精品久久综合1区2区3区激情| 456亚洲精品| 欧美一区二区激情三区| 国产无遮挡又黄又爽又色视频| 日韩中文字幕在线一区| 国产一区二区免费在线| 久久五月精品| 91精品综合在线观看| 国产精品国外精品| 午夜影院一区二区| 性精品18videosex欧美| 欧美日韩精品影院| 亚洲天堂国产精品| 国产欧美日韩一级大片| 国产日韩欧美亚洲综合| 国产毛片精品一区二区| 一区二区在线国产| 日韩欧美中文字幕精品| 久久91精品国产91久久久| 国产丝袜在线精品丝袜91| 国产精品高清一区| 中文字幕a一二三在线| 欧美乱妇高清无乱码一级特黄| 夜夜躁狠狠躁日日躁2024| 亚洲一级中文字幕| 国产一区日韩一区| 亚洲国产精品入口| 护士xxxx18一19| 91精品www| 国产一级二级在线| 91精品国产91热久久久做人人| 色噜噜狠狠色综合中文字幕| 99精品久久99久久久久| 日韩午夜毛片| 欧美精品免费一区二区| 少妇又紧又色又爽又刺激视频网站 | av毛片精品| 激情欧美日韩| 99热久久精品免费精品| 欧美精品国产精品| 国产日产高清欧美一区二区三区| 91精品国产九九九久久久亚洲| 日韩精品一区三区| 久久综合伊人77777麻豆| 日韩不卡毛片| 国产欧美精品va在线观看| 国产一区二区三区四区五区七| 欧美精品在线观看视频| 国产理论一区| 午夜精品在线播放| 国产精品一二三区视频出来一| 亚洲精品日本无v一区| 欧美国产三区| 肉丝肉足丝袜一区二区三区| 国产精品suv一区二区6| 国产日韩欧美一区二区在线播放|