日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]基于MapReduce算法的web數(shù)據(jù)采集方法、系統(tǒng)和存儲(chǔ)介質(zhì)在審

專利信息
申請(qǐng)?zhí)枺?/td> 202011107082.1 申請(qǐng)日: 2020-10-16
公開(公告)號(hào): CN112231320A 公開(公告)日: 2021-01-15
發(fā)明(設(shè)計(jì))人: 董志勇 申請(qǐng)(專利權(quán))人: 南京信息職業(yè)技術(shù)學(xué)院
主分類號(hào): G06F16/22 分類號(hào): G06F16/22;G06F16/951;G06F16/958
代理公司: 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 代理人: 董建林
地址: 210023 江蘇省*** 國(guó)省代碼: 江蘇;32
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 基于 mapreduce 算法 web 數(shù)據(jù) 采集 方法 系統(tǒng) 存儲(chǔ) 介質(zhì)
【說明書】:

發(fā)明公開了一種基于MapReduce算法的web數(shù)據(jù)采集方法、系統(tǒng)和存儲(chǔ)介質(zhì),屬于互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)領(lǐng)域,該web數(shù)據(jù)采集方法包括接收爬蟲采集節(jié)點(diǎn)傳送的網(wǎng)頁數(shù)據(jù)經(jīng)協(xié)議封裝而成的數(shù)據(jù)包;解析所述數(shù)據(jù)包,對(duì)解析后的數(shù)據(jù)包進(jìn)行Map操作構(gòu)建哈希表;向文件導(dǎo)出節(jié)點(diǎn)發(fā)送所述哈希表,以便于文件導(dǎo)出節(jié)點(diǎn)對(duì)所述哈希表進(jìn)行Reduce操作獲得同一網(wǎng)站的匯總數(shù)據(jù)集合,并將獲得的匯總數(shù)據(jù)集合導(dǎo)出到文件中。本發(fā)明能夠借助分布式架構(gòu)的微服務(wù)技術(shù),對(duì)數(shù)據(jù)處理由不同的節(jié)點(diǎn)承擔(dān),并通過MapReduce算法的Map操作和Reduce操作對(duì)采集的數(shù)據(jù)進(jìn)行處理,其數(shù)據(jù)結(jié)構(gòu)靈活性強(qiáng),數(shù)據(jù)采集效率高,采集方法部署簡(jiǎn)單和擴(kuò)展性強(qiáng)。

技術(shù)領(lǐng)域

本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于MapReduce算法的web數(shù)據(jù)采集方法、系統(tǒng)和存儲(chǔ)介質(zhì)。

背景技術(shù)

隨著5G技術(shù)的普及與應(yīng)用,各行業(yè)產(chǎn)生的海量數(shù)據(jù)將成為智能計(jì)算、智慧應(yīng)用的產(chǎn)業(yè)基礎(chǔ),大數(shù)據(jù)技術(shù)可以海量數(shù)據(jù)進(jìn)行采集、清洗、存儲(chǔ)、數(shù)據(jù)標(biāo)注和建模,并通過人工智能技術(shù)及軟件技術(shù)進(jìn)行設(shè)計(jì)開發(fā),形成智能化應(yīng)用系統(tǒng),從而構(gòu)建出各種智慧應(yīng)用場(chǎng)景。在此過程中,對(duì)海量數(shù)據(jù)進(jìn)行采集已成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的一個(gè)基礎(chǔ)性工作,其中,如何構(gòu)建擴(kuò)展性強(qiáng)、采集效率高且部署簡(jiǎn)單的web數(shù)據(jù)采集方法和系統(tǒng)等成為上述基礎(chǔ)性工作中非常重要的一環(huán)。

發(fā)明內(nèi)容

本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種基于MapReduce算法的web數(shù)據(jù)采集方法、系統(tǒng)和存儲(chǔ)介質(zhì),能夠使數(shù)據(jù)采集部署簡(jiǎn)單、擴(kuò)展性強(qiáng),獲得穩(wěn)定、準(zhǔn)確的數(shù)據(jù)采集結(jié)果。

為達(dá)到上述目的,本發(fā)明是采用下述技術(shù)方案實(shí)現(xiàn)的:

一方面,本發(fā)明提供了一種基于MapReduce算法的web數(shù)據(jù)采集方法,該方法包括如下步驟:

接收爬蟲采集節(jié)點(diǎn)傳送的網(wǎng)頁數(shù)據(jù)經(jīng)協(xié)議封裝而成的數(shù)據(jù)包;

解析所述數(shù)據(jù)包,對(duì)解析后的數(shù)據(jù)包進(jìn)行Map操作構(gòu)建哈希表;

向文件導(dǎo)出節(jié)點(diǎn)發(fā)送所述哈希表,以便于文件導(dǎo)出節(jié)點(diǎn)對(duì)所述哈希表進(jìn)行Reduce操作獲得同一網(wǎng)站的匯總數(shù)據(jù)集合,并將獲得的匯總數(shù)據(jù)集合導(dǎo)出到文件中。

進(jìn)一步的,所述數(shù)據(jù)包包括數(shù)據(jù)頭和數(shù)據(jù)體;

所述數(shù)據(jù)頭包括魔數(shù)區(qū),任務(wù)編號(hào),網(wǎng)站類型,子網(wǎng)站類型和數(shù)據(jù)包長(zhǎng)度;

所述數(shù)據(jù)體包括若干Item數(shù)據(jù),所述Item數(shù)據(jù)由所述網(wǎng)頁數(shù)據(jù)按字段名稱,字段長(zhǎng)度和字段數(shù)據(jù)的格式封裝而成。

進(jìn)一步的,對(duì)解析后的數(shù)據(jù)包進(jìn)行Map操作構(gòu)建哈希表的方法包括如下步驟:

解析數(shù)據(jù)頭獲得任務(wù)編號(hào)、網(wǎng)站類型、子網(wǎng)站類型、數(shù)據(jù)包長(zhǎng)度;

解析數(shù)據(jù)體中的Item數(shù)據(jù),并將Item數(shù)據(jù)轉(zhuǎn)變?yōu)閗ey-value數(shù)據(jù)結(jié)構(gòu);

將所有的Item數(shù)據(jù)對(duì)應(yīng)的key-value數(shù)據(jù)結(jié)構(gòu)組裝成Item哈希表;

根據(jù)獲取的網(wǎng)站類型、子網(wǎng)站類型和Item哈希表構(gòu)建Task哈希表;

根據(jù)獲取的任務(wù)編號(hào)和Task哈希表創(chuàng)建Event消息體。

進(jìn)一步的,所述Item數(shù)據(jù)結(jié)構(gòu)表示為:

字段名稱,字段長(zhǎng)度,字段數(shù)據(jù);

所述Item哈希表結(jié)構(gòu)表示為:

Item_key1,Item_value1,Item_key2,Item_value2,……,其中,Item_key1、Item_key2表示字段名稱,Item_value1、Item_value2表示字段數(shù)據(jù);

所述Task哈希表結(jié)構(gòu)表示為:

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京信息職業(yè)技術(shù)學(xué)院,未經(jīng)南京信息職業(yè)技術(shù)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202011107082.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 一区二区三区国产精品| 久久一区二区三区欧美| 国产在线拍揄自揄拍| 国产精品乱码久久久久久久| 日韩av中文字幕在线免费观看| 中文字幕欧美一区二区三区| 不卡在线一区二区| 免费久久一级欧美特大黄| 日韩精品一二区| 首页亚洲欧美制服丝腿| 日本五十熟hd丰满| 亚洲国产欧美一区| 欧美视屏一区| 亚洲码在线| 久久久国产精品一区| 国产午夜精品一区二区三区欧美| 亚洲午夜精品一区二区三区电影院| 999偷拍精品视频| 国产精品视频tv| 婷婷午夜影院| 日本一区午夜艳熟免费| **毛片在线| 国产97免费视频| 国产一区二区三区色噜噜小说| 国产午夜精品一区二区三区视频| 国产区一二| 精品国产乱码久久久久久免费| 久久精品国产精品亚洲红杏| 欧美一区二区三区片| 国产区一区| 处破大全欧美破苞二十三| 91精品丝袜国产高跟在线| www.日本一区| 午夜精品一二三区| 躁躁躁日日躁网站| 国产一区免费在线观看| 国产高清在线一区| 秋霞av电影网| 爱看av在线入口| 日本一区二区三区电影免费观看| 久久精品国产亚洲7777| 精品国产二区三区| 日韩在线一区视频| 日韩a一级欧美一级在线播放| 91丝袜诱惑| 日韩精品一区二区免费| 欧美三区二区一区| 中文字幕精品一区二区三区在线| 国产呻吟高潮| 国内精品国产三级国产99| 午夜一区二区三区在线观看| 欧美日韩中文字幕一区二区三区| 国产精品美乳在线观看| 一级久久久| 亚洲乱强伦| 国产在线卡一卡二| 在线国产一区二区三区| 一色桃子av| 久久精品com| 国产免费观看一区| 欧美片一区二区| 国产精品色婷婷99久久精品| 久久国产中文字幕| 日韩精品午夜视频| 午夜肉伦伦影院九七影网| 久久人人精品| 午夜伦全在线观看| 国产精品精品国内自产拍下载| 日本一二三不卡| 人人玩人人添人人澡97| 91精品久久久久久综合五月天| 国产在线视频二区| 亚洲精品www久久久久久广东| 狠狠干一区| 久久精品国产亚| 亚洲欧美一卡二卡| 99精品国产99久久久久久97 | 国产一区二区三区四区五区七| 日日噜噜夜夜狠狠| 少妇自拍一区| 久久久久国产一区二区三区不卡| 久久中文一区二区| 国产一区www| 久久久久国产精品免费免费搜索| 日本一区二区三区免费在线| 日韩精品久久久久久久的张开腿让 | 蜜臀久久精品久久久用户群体| 国产一区二三| 欧美午夜羞羞羞免费视频app| 岛国黄色av| 午夜亚洲影院| 91久久综合亚洲鲁鲁五月天| 美女张开腿黄网站免费| 欧美午夜理伦三级在线观看偷窥| 日本道欧美一区二区aaaa| 国产精品久久久久久久综合| 国产亚洲精品久久久久动| 久久精品国产色蜜蜜麻豆| 国语对白一区二区| 国产主播啪啪| 亚洲国产欧美一区二区丝袜黑人| 免费看大黄毛片全集免费| 亚洲国产精品日本| 久久一区二区三区欧美| 亚洲神马久久| 少妇厨房与子伦在线观看| 国产亚洲精品综合一区| 国产精品乱综合在线| 韩国视频一区二区| 午夜特级片| 在线视频不卡一区| 国产网站一区二区| 高清国产一区二区 | 小萝莉av| 午夜黄色网址| 国产一二三区免费| 国产91麻豆视频| 久久亚洲综合国产精品99麻豆的功能介绍| 欧美乱大交xxxxx胶衣| 国产精品久久久不卡| 国产无遮挡又黄又爽免费网站| 欧美一级久久精品| 91国偷自产中文字幕婷婷| 国产精品国产三级国产播12软件| 国产精品一区二区在线观看 | 亚洲欧美色一区二区三区| 欧美高清性xxxxhdvideos | 欧美一区二区三区四区在线观看| 伊人av综合网| 国产一区日韩一区| 99久久精品国产国产毛片小说| 日韩电影在线一区二区三区| 国产一区影院| 香蕉av一区二区三区| 一本色道久久综合亚洲精品图片| 久久久精品二区| 99久久婷婷国产精品综合| 日本xxxxxxxxx68护士| 国产一区二区三区伦理| 日韩毛片一区| 激情欧美一区二区三区| 日韩有码一区二区三区| 国产在线拍偷自揄拍视频 | 99视频国产精品| 日韩亚洲国产精品| 国产在线精品一区二区在线播放| 国产精品亚洲一区二区三区| 26uuu亚洲电影在线观看| 久久一区二区三区欧美| 国产精自产拍久久久久久蜜| 国产精品一二三区视频网站| 久久99国产精品视频| 波多野结衣女教师电影| 狠狠色噜噜狠狠狠狠2021免费| 91精品系列| 日韩精品免费一区二区三区| 亚洲一卡二卡在线| 日韩亚洲国产精品| 国产91九色在线播放| 国产精品麻豆一区二区三区| 国v精品久久久网| 精品国产一区二区在线| 国产69精品99久久久久久宅男| 国产97免费视频| 好吊妞国产欧美日韩软件大全| 免费**毛片| 91社区国产高清| 国产亚洲欧美日韩电影网| 少妇在线看www| 性国产日韩欧美一区二区在线| 亚洲精品97久久久babes| 一区二区三区日韩精品| 午夜电影一区| 国产精品一区二区三区在线看| 久久不卡一区| 国产精品奇米一区二区三区小说| 91久久精品在线| 国产精品久久久久久久妇女| 国产一区二区激情| 欧美精品国产一区| 一级女性全黄久久生活片免费| 久久久久久久亚洲国产精品87| 日本一二区视频| 欧美一区二区三区激情| 日韩精品一区二区三区免费观看视频| 日韩精品久久久久久久电影99爱| 高清欧美xxxx| 91视频一区二区三区| 狠狠躁日日躁狂躁夜夜躁| 国产一区二区片| 国产专区一区二区| 国产理论一区| 免费a级毛片18以上观看精品| 久久99国产精品久久99果冻传媒新版本 | 国产电影精品一区二区三区| 日本精品视频一区二区三区| 国产麻豆91视频| 国产伦精品一区二区三区免| 久免费看少妇高潮a级特黄按摩| 一区二区三区毛片| 午夜伦理片在线观看| 日韩精品久久久久久久酒店| 国产视频二区| 狠狠色狠狠色很很综合很久久| 国产一区精品在线观看| 国产伦精品一区二区三区无广告| 国产一级精品在线观看| 国产二区免费视频| 久久国产精品视频一区| 亚洲精品久久久久不卡激情文学| 国产一级不卡视频| 88888888国产一区二区| 日韩精品乱码久久久久久| 久久午夜鲁丝片午夜精品| 国产日产精品一区二区三区| 色噜噜狠狠狠狠色综合久| 亚洲精品乱码久久久久久写真| 窝窝午夜理伦免费影院| 欧美三级午夜理伦三级中视频 | 色综合久久久久久久粉嫩| 国产精品96久久久| 国产一区日韩在线| 97人人揉人人捏人人添| 亚洲欧美一卡| 国产色99| 亚洲精品卡一卡二| 美女直播一区二区三区| 日本一区二区三区中文字幕| xxxxx色| 中文字幕视频一区二区| 99久久免费精品国产免费高清| 亚洲精品卡一| 国产高清一区在线观看| 999亚洲国产精| 91精品色| 欧洲激情一区二区| 欧美精品日韩| 日本一区二区三区免费播放| 日韩精品一区二区亚洲| 久久99精品国产一区二区三区| 欧美一区二区三区久久久久久桃花| 视频一区二区三区欧美| 久久99精品国产麻豆宅宅| 国产性猛交xx乱| 国产精品一区一区三区| 躁躁躁日日躁网站|