日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]面向海量數(shù)據(jù)采集的分布式網(wǎng)絡(luò)爬蟲性能優(yōu)化系統(tǒng)在審

專利信息
申請(qǐng)?zhí)枺?/td> 201911110921.2 申請(qǐng)日: 2019-11-14
公開(公告)號(hào): CN110866166A 公開(公告)日: 2020-03-06
發(fā)明(設(shè)計(jì))人: 王維綱;張郭秋晨;張凱云;吳志成;吳艷林;紀(jì)綱;孫鵬;陳卓 申請(qǐng)(專利權(quán))人: 北京京航計(jì)算通訊研究所
主分類號(hào): G06F16/951 分類號(hào): G06F16/951;G06F16/955
代理公司: 中國(guó)兵器工業(yè)集團(tuán)公司專利中心 11011 代理人: 周恒
地址: 100074 北*** 國(guó)省代碼: 北京;11
權(quán)利要求書: 查看更多 說(shuō)明書: 查看更多
摘要:
搜索關(guān)鍵詞: 面向 海量 數(shù)據(jù) 采集 分布式 網(wǎng)絡(luò) 爬蟲 性能 優(yōu)化 系統(tǒng)
【說(shuō)明書】:

發(fā)明屬于軟件工程技術(shù)領(lǐng)域,具體涉及一種面向海量數(shù)據(jù)采集的分布式網(wǎng)絡(luò)爬蟲性能優(yōu)化系統(tǒng)。所述系統(tǒng)中,初始化模塊用于新建一個(gè)去重字符串和一個(gè)垃圾鏈接特征字符串;主節(jié)點(diǎn)爬行器用于讀取到初始URL地址,爬取模塊爬取初始URL地址,生成URL任務(wù)隊(duì)列;爬取模塊用于根據(jù)URL任務(wù)隊(duì)列進(jìn)行網(wǎng)頁(yè)爬取,完成爬取工作。與現(xiàn)有技術(shù)相比較,本發(fā)明突破了分布式網(wǎng)絡(luò)爬蟲爬取性能瓶頸,爬取性能提高50%以上;提高了URL任務(wù)隊(duì)列的去重效率,滿足海量數(shù)據(jù)采集的效率要求;優(yōu)化了URL任務(wù)隊(duì)列的存儲(chǔ)空間,極大地節(jié)省了服務(wù)器內(nèi)存資源;增加了垃圾鏈接過(guò)濾環(huán)節(jié),不僅節(jié)約服務(wù)器內(nèi)存資源,而且顯著提高爬蟲效率。

技術(shù)領(lǐng)域

本發(fā)明屬于軟件工程技術(shù)領(lǐng)域,具體涉及一種面向海量數(shù)據(jù)采集的分布式網(wǎng)絡(luò)爬蟲性能優(yōu)化系統(tǒng)。

背景技術(shù)

網(wǎng)絡(luò)爬蟲又名網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)螞蟻或者網(wǎng)絡(luò)機(jī)器人等,能夠按照設(shè)定的規(guī)則自動(dòng)地從網(wǎng)絡(luò)中獲取數(shù)據(jù)。分布式網(wǎng)絡(luò)爬蟲能夠高效獲取大規(guī)模數(shù)據(jù)集,廣泛應(yīng)用于搜索引擎和大數(shù)據(jù)分析中,已經(jīng)成為海量數(shù)據(jù)采集的重要工具。

分布式網(wǎng)絡(luò)爬蟲通常包括一個(gè)主節(jié)點(diǎn)爬行器和多個(gè)從節(jié)點(diǎn)爬行器,使用Redis內(nèi)存數(shù)據(jù)庫(kù)持久化保存URL任務(wù)隊(duì)列和去重隊(duì)列。主節(jié)點(diǎn)爬行器根據(jù)初始URL(統(tǒng)一資源定位符)爬取網(wǎng)頁(yè),獲得數(shù)據(jù),同時(shí)也得到新的URL,將新的URL去重后放入U(xiǎn)RL任務(wù)隊(duì)列;從節(jié)點(diǎn)爬行器從URL任務(wù)隊(duì)列中獲取URL地址,爬取網(wǎng)頁(yè),獲得數(shù)據(jù),同時(shí)也會(huì)得到新的URL,經(jīng)過(guò)去重后也會(huì)放入U(xiǎn)RL任務(wù)隊(duì)列,如此反復(fù)直到爬蟲任務(wù)滿足結(jié)束條件或者URL任務(wù)隊(duì)列為空。

Redis內(nèi)存數(shù)據(jù)庫(kù)自帶的URL去重原理是利用數(shù)據(jù)集合無(wú)重復(fù)的特性,適用于數(shù)據(jù)量規(guī)模不大的情況。當(dāng)待去重的鏈接達(dá)到千萬(wàn)量級(jí)時(shí),對(duì)服務(wù)器的內(nèi)存要求明顯提高,且去重效率大幅降低。經(jīng)過(guò)實(shí)踐,隨著爬蟲的不斷運(yùn)行,累積的URL任務(wù)隊(duì)列和去重隊(duì)列會(huì)持續(xù)占用Redis內(nèi)存并不斷增長(zhǎng),最終會(huì)因占滿整個(gè)服務(wù)器的內(nèi)存而使服務(wù)器宕機(jī)。

因此,現(xiàn)有的基于Redis的分布式網(wǎng)絡(luò)爬蟲,面對(duì)海量數(shù)據(jù)采集時(shí),性能存在三個(gè)方面的不足:(1)龐大的去重隊(duì)列保存在Redis集合中,不僅造成去重效率低下,也會(huì)過(guò)度消耗服務(wù)器內(nèi)存資源;(2)垃圾鏈接層出不窮,Redis內(nèi)存數(shù)據(jù)庫(kù)無(wú)法有效分辨,嚴(yán)重影響正常的爬取工作;(3)URL任務(wù)隊(duì)列數(shù)據(jù)量激增,也會(huì)過(guò)度占用服務(wù)器內(nèi)存資源。

發(fā)明內(nèi)容

(一)要解決的技術(shù)問(wèn)題

本發(fā)明要解決的技術(shù)問(wèn)題是:如何解決現(xiàn)有的基于Redis內(nèi)存數(shù)據(jù)庫(kù)的分布式網(wǎng)絡(luò)爬蟲,面對(duì)海量數(shù)據(jù)采集時(shí),存在的去重效率不高和服務(wù)器內(nèi)存資源過(guò)度消耗以及垃圾鏈接無(wú)法有效根除的問(wèn)題,

(二)技術(shù)方案

為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種面向海量數(shù)據(jù)采集的分布式網(wǎng)絡(luò)爬蟲性能優(yōu)化系統(tǒng),所述分布式網(wǎng)絡(luò)爬蟲性能優(yōu)化系統(tǒng)包括:初始化模塊、爬取模塊;其中,

所述初始化模塊用于新建一個(gè)去重字符串和一個(gè)垃圾鏈接特征字符串;

所述爬取模塊用于在主節(jié)點(diǎn)爬行器讀取到初始URL地址后,爬取初始URL地址,生成URL任務(wù)隊(duì)列;

所述爬取模塊還用于根據(jù)URL任務(wù)隊(duì)列進(jìn)行網(wǎng)頁(yè)爬取,完成爬取工作。

其中,所述初始化模塊包括:去重字符串生成單元、垃圾鏈接特征字符串生成單元;其中,

所述去重字符串生成單元用于在Redis內(nèi)存數(shù)據(jù)庫(kù)中新建一個(gè)去重字符串;

所述垃圾鏈接特征字符串生成單元用于根據(jù)垃圾鏈接的典型特征,在Redis內(nèi)存數(shù)據(jù)庫(kù)中新建一個(gè)垃圾鏈接特征字符串。

其中,所述去重字符串中所有的位數(shù)值為0。

其中,所述垃圾鏈接的典型特征包括:自動(dòng)評(píng)論生成的鏈接,群發(fā)外部的鏈接。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京航計(jì)算通訊研究所,未經(jīng)北京京航計(jì)算通訊研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201911110921.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說(shuō)明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 欧美激情精品久久久久久免费| 久久精品手机视频| 精品久久久久久中文字幕| 日韩在线一区视频| 精品国产二区三区| 国产一区二区视频免费观看| 日韩一级免费视频| 国产精品对白刺激在线观看| 538国产精品一区二区在线| 欧洲在线一区| 欧美片一区二区| 中文天堂在线一区| 一区二区三区四区视频在线| 欧美精品在线观看视频| 午夜电影网一区| 香港三日本8a三级少妇三级99| 国产欧美亚洲一区二区| 久久aⅴ国产欧美74aaa| 91亚洲精品国偷拍自产| 久99久精品| 国产一级片网站| 国产精品对白刺激在线观看| 欧美日韩国产色综合一二三四| 精品国产二区三区| 国产欧美一区二区三区不卡高清| 日本一二三不卡| 欧美亚洲精品一区二区三区| 日韩欧美高清一区| 精品国产亚洲一区二区三区| 欧美一区二区三区久久精品视 | 狠狠色噜噜狠狠狠四色米奇| 欧美一级日韩一级| 91丝袜国产在线播放| 久久一级精品| 偷拍区另类欧美激情日韩91| 亚洲国产一区二| 四虎国产永久在线精品| 激情欧美一区二区三区| 粉嫩久久99精品久久久久久夜| 国产九九九精品视频| 精品国产区| 国产日本一区二区三区| 国产在线精品一区| 国产性猛交xx乱视频| 国产aⅴ精品久久久久久| 精品中文久久| 日本一区二区在线观看视频| 久久精品国产亚洲7777 | 99国产精品永久免费视频| 欧美日韩一区不卡| 久久久久亚洲国产精品| 国产亚洲精品久久777777| 久久两性视频| 91偷拍网站| 国产91清纯白嫩初高中在线观看| 午夜av影视| 中文字幕一区二区三区又粗| 91区国产| 国产精品自拍不卡| 国产精品一区二区在线看| 国产精品5区| 99久久精品免费看国产免费粉嫩| 国产91精品高清一区二区三区| 小萝莉av| 亚洲乱视频| 国产精品一区不卡| 久久99精品国产99久久6男男 | 国产一区二区三区小说 | 国产一区观看| 伊人av中文av狼人av| 91麻豆国产自产在线观看hd| 欧美午夜精品一区二区三区| 午夜精品999| 亚洲精品国产一区二区三区| 亚洲乱亚洲乱妇28p| 国产精品一区二区不卡| 91亚洲国产在人线播放午夜| 欧美午夜理伦三级在线观看偷窥| 精品久久久影院| 97人人澡人人添人人爽超碰| 色一情一乱一乱一区免费网站 | 男女午夜影院| 国产精品美女www爽爽爽视频| 国产一区日韩精品| 日本午夜精品一区二区三区| 视频一区二区国产| 26uuu亚洲国产精品| 欧美乱妇在线观看| 综合久久国产九一剧情麻豆| 免费观看xxxx9999片| 国产91九色在线播放| 久久99国产精品久久99| 亚洲免费精品一区二区| 午夜一级免费电影| 国产精品乱码久久久久久久久| 91avpro| 中文字幕一区二区三区又粗| 少妇久久精品一区二区夜夜嗨| 午夜三级电影院| 91精品视频在线免费观看| 狠狠色狠狠色合久久伊人| 日韩精品一区二区不卡| av午夜影院| 国产午夜精品免费一区二区三区视频| 综合久久国产九一剧情麻豆| 日韩亚洲国产精品| 国产一二区在线观看| 狠狠色狠狠色综合日日2019| 国产免费观看一区| 久久久久久亚洲精品中文字幕| 另类视频一区二区| 少妇又紧又色又爽又刺激的视频| 欧美精品六区| 欧美激情在线一区二区三区| 国产综合亚洲精品| 国产一二区精品| 亚洲精品少妇一区二区| 国产在线一二区| 久久综合伊人77777麻豆最新章节| 91久久香蕉| 亚洲视频精品一区| 99久久精品国产国产毛片小说| 国产专区一区二区| 九色国产精品入口| 久久久一二区| 欧美一区二区三区久久综合| 97久久精品人人做人人爽50路| 国产精品一区二区av日韩在线| 97久久国产亚洲精品超碰热| 91麻豆精品国产91久久久资源速度| 久久97国产| 国产精品国产三级国产专区52| 国产亚洲精品久久久456| 国产精品69av| 欧美日韩一区二区三区在线播放 | 日韩av在线免费电影| 国产一区网址| 国产精品久久99| 国产高清一区在线观看| 欧美一区二区三区激情视频| 亚洲福利视频二区| 国产欧美精品一区二区三区小说 | 国产一区二区三区黄| 夜夜爽av福利精品导航| 精品久久久久久亚洲综合网 | 国产一区二三| 日韩国产精品一区二区| 午夜欧美a级理论片915影院| 欧美久久精品一级c片| 久久精品com| 99国产伦精品一区二区三区 | 欧美亚洲视频一区| 国产精品日韩电影| 国产一区二区精品免费| 亚洲自偷精品视频自拍| 国产精品久久久久久久久久久杏吧| 日韩欧美国产另类| 久久精视频| 欧美一区二区三区免费电影| 一区二区三区四区中文字幕 | 欧美精品在线视频观看| 99久久久久久国产精品| 欧美髙清性xxxxhdvid| 17c国产精品一区二区| 69久久夜色精品国产69乱青草| 国产精品一区二区在线看| 在线观看欧美一区二区三区| 中文字幕一区二区三区免费| 日韩精品一二区| 亚洲欧美一卡| 国产高清在线精品一区二区三区| 色妞妞www精品视频| 欧美一区二区三区久久精品| 狠狠色狠狠色合久久伊人| 亚洲欧美精品suv| 中文在线√天堂| 欧美一级久久精品| 午夜一区二区三区在线观看| 亚洲欧美另类久久久精品2019| 亚洲区在线| 91波多野结衣| 国产精品日韩一区二区| 国产亚洲精品久久19p| 狠狠色丁香久久综合频道| 欧美日韩中文不卡| 99精品偷拍视频一区二区三区| 国产一区免费在线观看| 久久久久久久亚洲视频| 亚洲欧洲一区二区| 国产精品亚洲а∨天堂123bt| 亚洲v欧美v另类v综合v日韩v| 亚洲精品久久久久中文字幕欢迎你| 99视频国产精品| 2023国产精品久久久精品双| 国产一区日韩欧美| 日本一区免费视频| 亚洲国产精品一区在线| 国产精品亚洲а∨天堂123bt| 国产欧美一区二区在线| 日本午夜精品一区二区三区| 国产区91| 久久91久久久久麻豆精品| 国产目拍亚洲精品区一区| 日韩亚洲精品视频| 日韩不卡毛片| 狠狠色噜噜狠狠狠狠奇米777| 99精品久久久久久久婷婷| 国产v亚洲v日韩v欧美v片| 亚洲国产偷| 午夜无遮挡| 综合久久色| 国产一级一区二区| 亚洲va国产| 色噜噜狠狠色综合久| 国产精品一区二区6| 国产精品一二三在线观看| 日韩精品一区二区久久| 国产视频二区| 亚洲国产一区二区精品| 91久久一区二区| 亚洲精品www久久久| 国产精品中文字幕一区二区三区 | 久久免费视频一区| 91视频一区二区三区| 日日夜夜一区二区| 国产亚洲精品久久久久久网站| 免费的午夜毛片| 艳妇荡乳欲伦2| 国产一区二区电影在线观看| 狠狠色狠狠色综合日日五| 午夜三级大片| 国产午夜一区二区三区| 在线国产一区二区| 99久久国产免费| 99re热精品视频国产免费| 蜜臀久久99精品久久久久久网站| 夜夜精品视频一区二区| 欧美国产在线看| 国产精一区二区| 久久久久国产亚洲| 欧美日韩综合一区| 欧美一区二区三区黄| 国产一级片自拍| 国产精品日韩电影| 香蕉久久国产| 国产乱xxxxx国语对白|