[發(fā)明專利]一種驗(yàn)證MapReduce環(huán)境下處理數(shù)據(jù)正確性的方法和裝置有效
| 申請?zhí)枺?/td> | 201410090641.0 | 申請日: | 2014-03-12 |
| 公開(公告)號: | CN104915352B | 公開(公告)日: | 2018-10-02 |
| 發(fā)明(設(shè)計(jì))人: | 王立 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 黨曉林 |
| 地址: | 英屬開曼*** | 國省代碼: | 開曼群島;KY |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 驗(yàn)證 mapreduce 環(huán)境 處理 數(shù)據(jù) 正確性 方法 裝置 | ||
本申請?zhí)峁┝艘环N驗(yàn)證MapReduce環(huán)境下處理數(shù)據(jù)正確性的方法,包括:為MapReduce源代碼加入劫持代碼,生成帶有劫持代碼的數(shù)據(jù)處理程序;運(yùn)行帶有劫持代碼的數(shù)據(jù)處理程序?qū)斎霐?shù)據(jù)進(jìn)行數(shù)據(jù)處理,得到輸出數(shù)據(jù),組成三元組數(shù)據(jù);去除覆蓋信息相同的三元組數(shù)據(jù),形成監(jiān)控三元組集合;需要驗(yàn)證處理數(shù)據(jù)正確性時(shí),將監(jiān)控三元組集合中的輸入數(shù)據(jù)返回至帶有劫持代碼的數(shù)據(jù)處理程序重新進(jìn)行數(shù)據(jù)處理,得到輸出數(shù)據(jù),形成輸出數(shù)據(jù)集合;驗(yàn)證輸出數(shù)據(jù)集合中每一條數(shù)據(jù)是否正確。本申請?zhí)峁┑尿?yàn)證MapReduce環(huán)境下處理數(shù)據(jù)正確性的方法可以減少驗(yàn)證處理數(shù)據(jù)正確性的人工成本和實(shí)現(xiàn)時(shí)間。本申請還提出了一種驗(yàn)證MapReduce環(huán)境下處理數(shù)據(jù)正確性的裝置實(shí)施例,可實(shí)現(xiàn)本申請的方法實(shí)施例。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)計(jì)算領(lǐng)域,尤其涉及一種驗(yàn)證MapReduce環(huán)境下處理數(shù)據(jù)正確性的方法和裝置。
背景技術(shù)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算機(jī)需要處理的數(shù)據(jù)的數(shù)據(jù)量也越來越大,單臺(tái)計(jì)算機(jī)已經(jīng)不能處理一些大規(guī)模的數(shù)據(jù),為此需要將多臺(tái)計(jì)算機(jī)聯(lián)合起來,構(gòu)成計(jì)算機(jī)群,并行處理大規(guī)模的數(shù)據(jù)。云計(jì)算就是通過采用精心設(shè)計(jì)的系統(tǒng)架構(gòu)對設(shè)備進(jìn)行組織管理,能夠提供十分強(qiáng)大的計(jì)算能力。MapReduce是一種編程模型,通常用于將大規(guī)模數(shù)據(jù)集并行且分布式地運(yùn)行于大型的集群中,所述的大規(guī)模數(shù)據(jù)集,一般是指大于1TB(萬億字節(jié))的數(shù)據(jù)集。
MapReduce對數(shù)據(jù)集進(jìn)行并行處理的過程具體可以包括:根據(jù)Map(映射)任務(wù)的數(shù)量,將數(shù)據(jù)集分解為多個(gè)數(shù)據(jù)塊;分別對每個(gè)數(shù)據(jù)塊中的每個(gè)原始鍵值對數(shù)據(jù)執(zhí)行Map處理,得到每個(gè)原始鍵值對數(shù)據(jù)對應(yīng)的中間結(jié)果鍵值對數(shù)據(jù)集;在得到所有原始鍵值對數(shù)據(jù)對應(yīng)的中間結(jié)果鍵值對數(shù)據(jù)集后,再對所有具有相同鍵的中間結(jié)果鍵值對數(shù)據(jù)進(jìn)行相應(yīng)的Reduce(規(guī)約)處理,得到相應(yīng)的最終結(jié)果鍵值對數(shù)據(jù)。一般開發(fā)人員需要做的就是實(shí)現(xiàn)自己的Map和Reduce函數(shù)邏輯,然后提交給MapReduce運(yùn)行環(huán)境。由上述MapReduce的工作原理可以看出,每個(gè)子任務(wù)的執(zhí)行結(jié)果都可以影響最終的計(jì)算結(jié)果。在實(shí)際的應(yīng)用過程中,在MapReduce的函數(shù)邏輯不變的情況下,MapReduce運(yùn)行環(huán)境并不是一直不變化的,例如會(huì)修改MapReduce運(yùn)行環(huán)境中的某個(gè)或多個(gè)計(jì)算機(jī)的系統(tǒng)參數(shù)、修改運(yùn)行的MapReduce代碼中不會(huì)影響運(yùn)行結(jié)果的參數(shù)等,這些微小的變化可能會(huì)導(dǎo)致某個(gè)或多個(gè)子任務(wù)的執(zhí)行結(jié)果發(fā)生錯(cuò)誤而影響最終的計(jì)算結(jié)果,例如,修改了某臺(tái)計(jì)算機(jī)中的運(yùn)算的精度可能會(huì)導(dǎo)致在該計(jì)算機(jī)上運(yùn)行的子任務(wù)的輸出結(jié)果發(fā)生改變,或者修改了MapReduce程序中不會(huì)影響運(yùn)算結(jié)果的一些參數(shù);這些可能會(huì)使某個(gè)或多個(gè)子任務(wù)的執(zhí)行結(jié)果發(fā)生錯(cuò)誤,進(jìn)而導(dǎo)致最終的運(yùn)算結(jié)果發(fā)生錯(cuò)誤。所以,為了保證當(dāng)前MapReduce運(yùn)行環(huán)境下數(shù)據(jù)處理得到的結(jié)果是正確的,經(jīng)常需要在進(jìn)行實(shí)際的數(shù)據(jù)處理前,驗(yàn)證當(dāng)前MapReduce運(yùn)行環(huán)境下處理數(shù)據(jù)的正確性。
驗(yàn)證MapReduce環(huán)境下處理數(shù)據(jù)正確性的方法可以有兩種:
一種稱為編寫測試用例法。所述編寫測試用例法具體包括:測試人員編寫用于測試的例子,在MapReduce環(huán)境下的運(yùn)算結(jié)果應(yīng)當(dāng)發(fā)生變化時(shí),所述測試的例子可以輸出相應(yīng)的錯(cuò)誤的結(jié)果。這樣在MapReduce環(huán)境發(fā)生變化后對編寫的測試用例進(jìn)行數(shù)據(jù)處理,將得到的數(shù)據(jù)處理的結(jié)果與MapReduce環(huán)境發(fā)生變化前的數(shù)據(jù)處理結(jié)果進(jìn)行對比,如果。
另一種稱為真實(shí)數(shù)據(jù)法。所述真實(shí)數(shù)據(jù)法具體包括:使用真實(shí)的數(shù)據(jù),在MapReduce環(huán)境發(fā)生變化后對實(shí)的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,將得到的數(shù)據(jù)處理的結(jié)果與MapReduce環(huán)境發(fā)生變化前的數(shù)據(jù)處理結(jié)果進(jìn)行對比,分析數(shù)據(jù)處理結(jié)果的正確性。
在實(shí)現(xiàn)本申請過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410090641.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 驗(yàn)證系統(tǒng)、驗(yàn)證服務(wù)器、驗(yàn)證方法、驗(yàn)證程序、終端、驗(yàn)證請求方法、驗(yàn)證請求程序和存儲(chǔ)媒體
- 驗(yàn)證目標(biāo)系統(tǒng)的驗(yàn)證系統(tǒng)及其驗(yàn)證方法
- 驗(yàn)證設(shè)備、驗(yàn)證方法和驗(yàn)證程序
- 驗(yàn)證裝置、驗(yàn)證系統(tǒng)以及驗(yàn)證方法
- 驗(yàn)證方法、驗(yàn)證系統(tǒng)、驗(yàn)證設(shè)備及其程序
- 驗(yàn)證方法、用于驗(yàn)證的系統(tǒng)、驗(yàn)證碼系統(tǒng)以及驗(yàn)證裝置
- 圖片驗(yàn)證碼驗(yàn)證方法和圖片驗(yàn)證碼驗(yàn)證裝置
- 驗(yàn)證裝置、驗(yàn)證程序和驗(yàn)證方法
- 驗(yàn)證裝置、驗(yàn)證方法及驗(yàn)證程序
- 跨多個(gè)驗(yàn)證域的驗(yàn)證系統(tǒng)、驗(yàn)證方法、驗(yàn)證設(shè)備
- 一種處理串行任務(wù)的數(shù)據(jù)處理裝置及方法
- 一種將MapReduce轉(zhuǎn)換為SQL的方法和裝置
- 一種基于MapReduce的數(shù)據(jù)處理方法和裝置
- MapReduce應(yīng)用的相關(guān)參數(shù)的配置方法和裝置
- MapReduce作業(yè)處理系統(tǒng)、服務(wù)器及處理方法
- 一種考慮任務(wù)相關(guān)性的Hive優(yōu)化方法及系統(tǒng)
- 一種運(yùn)行MapReduce作業(yè)的方法、裝置及系統(tǒng)
- 一種數(shù)據(jù)查詢的優(yōu)化方法和裝置
- 一種Sqoop集成多版本HBase的方法及裝置
- 一種計(jì)算HiveSql執(zhí)行進(jìn)度的方法
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





