[發明專利]一種基于HadoopMapReduce編程框架的數據統計排重的方法有效
| 申請號: | 201510013399.1 | 申請日: | 2015-01-12 |
| 公開(公告)號: | CN104598567B | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 李鵬 | 申請(專利權)人: | 北京中交興路車聯網科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京和信華成知識產權代理事務所(普通合伙)11390 | 代理人: | 胡劍輝 |
| 地址: | 101111 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop mapreduce 編程 框架 數據 統計 方法 | ||
1.一種基于Hadoop MapReduce編程框架的數據統計排重的方法,其特征在于:該方法基于Hadoop MapReduce編程框架的key和value的劃分機制,包括以下步驟:
(1)每個map分別處理各自分區的數據,將數據對象object和其對應的每個attribute分別結合,形成不同的關鍵詞key;將每個屬性attribute對應的權重weight劃分為其與object結合形成的key的權值value,從而形成key/value對;
(2)按照key將數據劃分到不同的reduce分區,并對不同的reduce分區的數據分別按照key排序;
(3)將步驟(2)的數據寫回map節點的磁盤。
2.根據權利要求1所述的基于Hadoop MapReduce編程框架的數據統計排重的方法,其特征在于:該方法還包括以下步驟:
(4)每個reduce計算節點從各個map節點取走屬于該reduce計算節點的數據,對取回的所有數據按照key進行merger排序;
(5)相同key對應的value形成一個列表,并返回該列表的一個迭代子;
(6)對每個key對應的數據集列表進行合并處理;
(7)輸出處理結果。
3.根據權利要求2所述的基于Hadoop MapReduce編程框架的數據統計排重的方法,其特征在于:所述步驟(1)還包括:對每個由object和attribute形成的key,將key相同的weight值相加。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中交興路車聯網科技有限公司,未經北京中交興路車聯網科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510013399.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種海量GPS數據存儲的方法及裝置
- 下一篇:搜索方法及裝置





