[發明專利]一種基于MapReduce的數據處理方法、裝置、設備及介質在審
| 申請號: | 201911337908.0 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111104225A | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 王吉偉;范淵 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 巴翠昆 |
| 地址: | 310000 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce 數據處理 方法 裝置 設備 介質 | ||
1.一種基于MapReduce的數據處理方法,其特征在于,包括:
對待處理數據進行抽樣,得到樣本數據;
利用所述樣本數據中key的頻次以及Reduce節點的數量確定出目標均值;
利用所述目標均值、所述key的頻次以及所述Reduce節點的當前負載確定出所述key與所述Reduce節點的分配對應關系;
利用所述分配對應關系將所述key對應的所述待處理數據分配至對應的所述Reduce節點,以便所述Reduce節點進行相應的數據處理。
2.根據所述根據權利要求1所述的基于MapReduce的數據處理方法,其特征在于,所述對待處理數據進行抽樣,得到樣本數據,包括:
對待處理數據進行等距抽樣,得到樣本數據。
3.根據權利要求1所述的基于MapReduce的數據處理方法,其特征在于,所述對待處理數據進行抽樣,得到樣本數據,包括:
對待處理數據進行map處理;
對map處理后的所述待處理數據進行抽樣,得到所述樣本數據。
4.根據權利要求1所述的基于MapReduce的數據處理方法,其特征在于,所述利用所述樣本數據中key的頻次以及Reduce節點的數量確定出目標均值,包括:
確定所述樣本數據中全部key對應的頻次和;
利用所述頻次和以及Reduce節點的數量確定出目標均值。
5.根據權利要求1所述的基于MapReduce的數據處理方法,其特征在于,所述利用所述目標均值、所述key的頻次以及所述Reduce節點的當前負載確定出所述key與所述Reduce節點的分配對應關系,包括:
將所述樣本數據中的key按照頻次從小到大排序存放進隊列;
步驟A:啟動對所述隊列的第一次遍歷;
步驟B:當遍歷出頻次大于所述目標均值的key,步驟B1:查找當前負載值為0的所述Reduce節點,步驟B2:建立當前key與查找出的當前Reduce節點的所述分配對應關系,并對當前Reduce節點對應的負載值進行對應修改,步驟B3:將當前key的頻次減去所述目標均值,步驟B4:判斷減去所述目標均值的key的頻次是否大于所述目標均值,若是,則跳轉至所述步驟B1,若否,則判斷當前key的頻次是否為0,若當前key的頻次不為0,則將當前key重新按照頻次插入所述隊列;繼續所述第一次遍歷,并執行所述步驟B,直至所述第一次遍歷結束;
步驟C:步驟C1:查找通過所述步驟A和所述步驟B沒有與所述key建立所述分配對應關系的所述Reduce節點,步驟C2:啟動對所述隊列從后至前的第二次遍歷,步驟C3:確定出當前遍歷出的key的頻次與查找出的當前Reduce節點的當前負載值的和值,步驟C4:判斷所述和值是否大于所述目標均值,若所述和值小于等于所述目標均值,則建立當前key與當前Reduce節點的所述分配對應關系,并將當前key從所述隊列中刪除,以及對當前Reduce節點對應的負載值進行對應修改,然后繼續所述第二次遍歷,并執行所述步驟C3和所述步驟C4,直至所述第二次遍歷結束,若所述和值大于所述目標均值,則繼續進行所述第二次遍歷,并執行所述步驟C3和所述步驟C4,直至所述第二次遍歷結束;
重復執行所述步驟C,直至通過所述步驟A和所述步驟B沒有與所述key建立所述分配對應關系的全部所述Reduce節點處理完成。
6.根據權利要求1所述的基于MapReduce的數據處理方法,其特征在于,所述利用所述分配對應關系將所述key對應的所述待處理數據分配至對應的所述Reduce節點,以便所述Reduce節點進行相應的數據處理,包括:
利用所述分配對應關系將所述key對應的所述待處理數據分配至對應的所述Reduce節點,若所述key與多個所述Reduce節點存在所述分配對應關系,則按照建立所述分配對應關系時的待分配到所述Reduce節點的所述key的比例關系將所述key對應的所述待處理數據分配至對應的所述Reduce節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911337908.0/1.html,轉載請聲明來源鉆瓜專利網。





