[發(fā)明專利]基于MapReduce算法的web數(shù)據(jù)采集方法、系統(tǒng)和存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011107082.1 | 申請(qǐng)日: | 2020-10-16 |
| 公開(公告)號(hào): | CN112231320A | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計(jì))人: | 董志勇 | 申請(qǐng)(專利權(quán))人: | 南京信息職業(yè)技術(shù)學(xué)院 |
| 主分類號(hào): | G06F16/22 | 分類號(hào): | G06F16/22;G06F16/951;G06F16/958 |
| 代理公司: | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210023 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 mapreduce 算法 web 數(shù)據(jù) 采集 方法 系統(tǒng) 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開了一種基于MapReduce算法的web數(shù)據(jù)采集方法、系統(tǒng)和存儲(chǔ)介質(zhì),屬于互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)領(lǐng)域,該web數(shù)據(jù)采集方法包括接收爬蟲采集節(jié)點(diǎn)傳送的網(wǎng)頁數(shù)據(jù)經(jīng)協(xié)議封裝而成的數(shù)據(jù)包;解析所述數(shù)據(jù)包,對(duì)解析后的數(shù)據(jù)包進(jìn)行Map操作構(gòu)建哈希表;向文件導(dǎo)出節(jié)點(diǎn)發(fā)送所述哈希表,以便于文件導(dǎo)出節(jié)點(diǎn)對(duì)所述哈希表進(jìn)行Reduce操作獲得同一網(wǎng)站的匯總數(shù)據(jù)集合,并將獲得的匯總數(shù)據(jù)集合導(dǎo)出到文件中。本發(fā)明能夠借助分布式架構(gòu)的微服務(wù)技術(shù),對(duì)數(shù)據(jù)處理由不同的節(jié)點(diǎn)承擔(dān),并通過MapReduce算法的Map操作和Reduce操作對(duì)采集的數(shù)據(jù)進(jìn)行處理,其數(shù)據(jù)結(jié)構(gòu)靈活性強(qiáng),數(shù)據(jù)采集效率高,采集方法部署簡(jiǎn)單和擴(kuò)展性強(qiáng)。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于MapReduce算法的web數(shù)據(jù)采集方法、系統(tǒng)和存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著5G技術(shù)的普及與應(yīng)用,各行業(yè)產(chǎn)生的海量數(shù)據(jù)將成為智能計(jì)算、智慧應(yīng)用的產(chǎn)業(yè)基礎(chǔ),大數(shù)據(jù)技術(shù)可以海量數(shù)據(jù)進(jìn)行采集、清洗、存儲(chǔ)、數(shù)據(jù)標(biāo)注和建模,并通過人工智能技術(shù)及軟件技術(shù)進(jìn)行設(shè)計(jì)開發(fā),形成智能化應(yīng)用系統(tǒng),從而構(gòu)建出各種智慧應(yīng)用場(chǎng)景。在此過程中,對(duì)海量數(shù)據(jù)進(jìn)行采集已成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的一個(gè)基礎(chǔ)性工作,其中,如何構(gòu)建擴(kuò)展性強(qiáng)、采集效率高且部署簡(jiǎn)單的web數(shù)據(jù)采集方法和系統(tǒng)等成為上述基礎(chǔ)性工作中非常重要的一環(huán)。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種基于MapReduce算法的web數(shù)據(jù)采集方法、系統(tǒng)和存儲(chǔ)介質(zhì),能夠使數(shù)據(jù)采集部署簡(jiǎn)單、擴(kuò)展性強(qiáng),獲得穩(wěn)定、準(zhǔn)確的數(shù)據(jù)采集結(jié)果。
為達(dá)到上述目的,本發(fā)明是采用下述技術(shù)方案實(shí)現(xiàn)的:
一方面,本發(fā)明提供了一種基于MapReduce算法的web數(shù)據(jù)采集方法,該方法包括如下步驟:
接收爬蟲采集節(jié)點(diǎn)傳送的網(wǎng)頁數(shù)據(jù)經(jīng)協(xié)議封裝而成的數(shù)據(jù)包;
解析所述數(shù)據(jù)包,對(duì)解析后的數(shù)據(jù)包進(jìn)行Map操作構(gòu)建哈希表;
向文件導(dǎo)出節(jié)點(diǎn)發(fā)送所述哈希表,以便于文件導(dǎo)出節(jié)點(diǎn)對(duì)所述哈希表進(jìn)行Reduce操作獲得同一網(wǎng)站的匯總數(shù)據(jù)集合,并將獲得的匯總數(shù)據(jù)集合導(dǎo)出到文件中。
進(jìn)一步的,所述數(shù)據(jù)包包括數(shù)據(jù)頭和數(shù)據(jù)體;
所述數(shù)據(jù)頭包括魔數(shù)區(qū),任務(wù)編號(hào),網(wǎng)站類型,子網(wǎng)站類型和數(shù)據(jù)包長(zhǎng)度;
所述數(shù)據(jù)體包括若干Item數(shù)據(jù),所述Item數(shù)據(jù)由所述網(wǎng)頁數(shù)據(jù)按字段名稱,字段長(zhǎng)度和字段數(shù)據(jù)的格式封裝而成。
進(jìn)一步的,對(duì)解析后的數(shù)據(jù)包進(jìn)行Map操作構(gòu)建哈希表的方法包括如下步驟:
解析數(shù)據(jù)頭獲得任務(wù)編號(hào)、網(wǎng)站類型、子網(wǎng)站類型、數(shù)據(jù)包長(zhǎng)度;
解析數(shù)據(jù)體中的Item數(shù)據(jù),并將Item數(shù)據(jù)轉(zhuǎn)變?yōu)閗ey-value數(shù)據(jù)結(jié)構(gòu);
將所有的Item數(shù)據(jù)對(duì)應(yīng)的key-value數(shù)據(jù)結(jié)構(gòu)組裝成Item哈希表;
根據(jù)獲取的網(wǎng)站類型、子網(wǎng)站類型和Item哈希表構(gòu)建Task哈希表;
根據(jù)獲取的任務(wù)編號(hào)和Task哈希表創(chuàng)建Event消息體。
進(jìn)一步的,所述Item數(shù)據(jù)結(jié)構(gòu)表示為:
字段名稱,字段長(zhǎng)度,字段數(shù)據(jù);
所述Item哈希表結(jié)構(gòu)表示為:
Item_key1,Item_value1,Item_key2,Item_value2,……,其中,Item_key1、Item_key2表示字段名稱,Item_value1、Item_value2表示字段數(shù)據(jù);
所述Task哈希表結(jié)構(gòu)表示為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京信息職業(yè)技術(shù)學(xué)院,未經(jīng)南京信息職業(yè)技術(shù)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011107082.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種處理串行任務(wù)的數(shù)據(jù)處理裝置及方法
- 一種將MapReduce轉(zhuǎn)換為SQL的方法和裝置
- 一種基于MapReduce的數(shù)據(jù)處理方法和裝置
- MapReduce應(yīng)用的相關(guān)參數(shù)的配置方法和裝置
- MapReduce作業(yè)處理系統(tǒng)、服務(wù)器及處理方法
- 一種考慮任務(wù)相關(guān)性的Hive優(yōu)化方法及系統(tǒng)
- 一種運(yùn)行MapReduce作業(yè)的方法、裝置及系統(tǒng)
- 一種數(shù)據(jù)查詢的優(yōu)化方法和裝置
- 一種Sqoop集成多版本HBase的方法及裝置
- 一種計(jì)算HiveSql執(zhí)行進(jìn)度的方法
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實(shí)現(xiàn)方法
- 一種WEB業(yè)務(wù)實(shí)現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標(biāo)和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點(diǎn)轉(zhuǎn)換為目標(biāo)web app站點(diǎn)的方法和裝置
- 用于防護(hù)WEB漏洞的方法和設(shè)備
- 一種Web攻擊報(bào)告生成方法、裝置、設(shè)備及計(jì)算機(jī)介質(zhì)





