[發明專利]一種基于MapReduce的數據處理方法、裝置、設備及介質在審
| 申請號: | 201911337908.0 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111104225A | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 王吉偉;范淵 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 巴翠昆 |
| 地址: | 310000 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce 數據處理 方法 裝置 設備 介質 | ||
本申請公開了一種基于MapReduce的數據處理方法、裝置、設備及介質,包括:對待處理數據進行抽樣,得到樣本數據;利用所述樣本數據中key的頻次以及Reduce節點的數量確定出目標均值;利用所述目標均值、所述key的頻次以及所述Reduce節點的當前負載確定出所述key與所述Reduce節點的分配對應關系;利用所述分配對應關系將所述key對應的所述待處理數據分配至對應的所述Reduce節點,以便所述Reduce節點進行相應的數據處理。這樣,利用抽樣數據中的key的頻次與對應的Reduce節點建立分配對應關系,然后利用所述分配對應關系將key對應的待處理數據分配至對應的Reduce節點,能夠降低數據傾斜程度,從而提升數據處理效率。
技術領域
本申請涉及數據處理技術領域,特別涉及一種基于MapReduce的數據處理方法、裝置、設備及介質。
背景技術
MapReduce是目前廣泛應用的并行計算框架,是Hadoop平臺的重要組成部分。MapReduce框架主要包括Map和Reduce函數,Map函數輸出key-value鍵值對作為Reduce函數的輸入。由于輸入數據的動態性,key通常存在不均衡性,直接導致了Reduce處理數據量存在不均衡性。
MapReduce默認的劃分數據方法是hash算法,根據處理數據的key分片至Reduce節點,具體的,key采用字符哈希算法(BKDR算法)確定其待分配的Reduce節點,這樣,key分配到Reduce節點完全取決于hash值,會存在數據傾斜情況,比如多個key的hashcode與Reduce節點數取模之后可能具有相同的值,從而使數據集中劃分到同一個Reduce節點,或者存在某些key頻次過大,也會存在類似情況。
發明內容
有鑒于此,本申請的目的在于提供一種基于MapReduce的數據處理方法、裝置、設備及介質,能夠降低數據傾斜程度,從而提升數據處理效率。其具體方案如下:
第一方面,本申請公開了一種基于MapReduce的數據處理方法,包括:
對待處理數據進行抽樣,得到樣本數據;
利用所述樣本數據中key的頻次以及Reduce節點的數量確定出目標均值;
利用所述目標均值、所述key的頻次以及所述Reduce節點的當前負載確定出所述key與所述Reduce節點的分配對應關系;
利用所述分配對應關系將所述key對應的所述待處理數據分配至對應的所述Reduce節點,以便所述Reduce節點進行相應的數據處理。
可選的,所述對待處理數據進行抽樣,得到樣本數據,包括:
對待處理數據進行等距抽樣,得到樣本數據。
可選的,所述對待處理數據進行抽樣,得到樣本數據,包括:
對待處理數據進行map處理;
對map處理后的所述待處理數據進行抽樣,得到所述樣本數據。
可選的,所述利用所述樣本數據中key的頻次以及Reduce節點的數量確定出目標均值,包括:
確定所述樣本數據中全部key對應的頻次和;
利用所述頻次和以及Reduce節點的數量確定出目標均值。
可選的,所述利用所述目標均值、所述key的頻次以及所述Reduce節點的當前負載確定出所述key與所述Reduce節點的分配對應關系,包括:
將所述樣本數據中的key按照頻次從小到大排序存放進隊列;
步驟A:啟動對所述隊列的第一次遍歷;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911337908.0/2.html,轉載請聲明來源鉆瓜專利網。





