[發明專利]一種分布式數據處理方法及裝置在審
| 申請號: | 201611178256.7 | 申請日: | 2016-12-19 |
| 公開(公告)號: | CN106776026A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 鄧怡豪 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙)11276 | 代理人: | 宋菲,劉蘭蘭 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 數據處理 方法 裝置 | ||
技術領域
本發明涉及數據處理技術領域,具體涉及一種分布式數據處理方法及裝置。
背景技術
分布式數據處理也可以稱為分布式計算、分布式處理或分布式事務處理。分布式數據處理是指在計算或處理時,發起者將需要計算的數據或需要處理的事務分成多個子計算、子處理或子事務,然后把這些子計算、子處理或子事務分配給多個參與者進行計算或處理,最后發起者把各參與者的處理結果綜合起來得到最終的結果。
隨著大數據時代的到來,各行各業需要處理的數據量越來越大,而分布式數據處理技術的引入,極大地提高了數據處理效率,促進了各行各業的發展。
但是,發明人在實現本發明的過程中,發現在現有技術中至少存在如下問題:在分布式數據處理過程中,通常根據數據的鍵將需要處理的數據分發到參與處理的各個服務器上,因此,鍵相同的數據將被分發到同一臺服務器上,若某一個鍵對應的數據量非常大,則會出現數據分發不均勻的情況。此時,個別服務器被分發的數據量特別多,而其他服務器被分發數據量比較少,這種情況下,數據多的服務器運算負荷大,處理花費的時間長,拉低了整體的數據處理效率;而數據少的服務器運算負荷小,部分運算能力被閑置,利用率不高,導致了資源的浪費。同時,當一臺服務器上處理的數據量過大時還常常出現處理失敗的情況。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的分布式數據處理方法和相應的分布式數據處理裝置。
根據本發明的一個方面,提供了一種分布式數據處理方法,該方法包括:將在同一數據集中的出現次數大于預設次數的鍵對應的數據確定為傾斜數據,將包含傾斜數據的數據集確定為傾斜數據集,將未包含傾斜數據的數據集確定為非傾斜數據集;根據預設的鍵標記集合,為傾斜數據集中的每個數據的原始鍵分別添加一個鍵標記,得到處理后的傾斜數據集;其中,鍵標記集合中包含N個不同的鍵標記,N為自然數;將非傾斜數據集中的每個數據復制為N個,得到擴容后的非傾斜數據集,根據鍵標記集合,為擴容后的非傾斜數據集中的每個數據的原始鍵分別添加一個鍵標記,得到處理后的非傾斜數據集;按照預設的數據分配規則,將處理后的傾斜數據集以及處理后的非傾斜數據集中的各個數據分配給多臺服務器進行分布式處理。
可選的,處理后的傾斜數據集以及處理后的非傾斜數據集中的各個數據的鍵為該數據的原始鍵與該數據的鍵標記的組合;則按照預設的數據分配規則,將處理后的傾斜數據集以及處理后的非傾斜數據集中的各個數據分配給多臺服務器進行分布式處理的步驟具體包括:根據各個數據的鍵,將處理后的傾斜數據集以及處理后的非傾斜數據集中的各個數據分配給多臺服務器進行分布式處理。
可選的,將處理后的傾斜數據集以及處理后的非傾斜數據集中的各個數據分配給多臺服務器進行分布式處理的步驟之后,進一步包括:從處理后的各個數據的鍵中刪除鍵標記,得到各個數據的原始鍵。
可選的,為傾斜數據集中的每個數據的原始值分別添加一個鍵標記的步驟具體包括:將鍵標記集合中的各個鍵標記依次添加到傾斜數據集中的各個數據的原始鍵中;或者,將鍵標記集合中的各個鍵標記隨機添加到傾斜數據集中的各個數據的原始鍵中。
可選的,為擴容后的非傾斜數據集中的每個數據的原始鍵分別添加一個鍵標記的步驟具體包括:將鍵標記集合中的各個鍵標記依次添加到擴容后的非傾斜數據集中的各個數據的原始鍵中;或者,將鍵標記集合中的各個鍵標記隨機添加到擴容后的非傾斜數據集中的各個數據的原始鍵中。
可選的,鍵標記包括:用于添加在原始鍵的起始位置的前綴型鍵標記,和/或,用于添加在原始鍵的末尾位置的后綴型鍵標記;并且,鍵標記包括以下中的至少一種:單字符類鍵標記、字符串類鍵標記、以及數字類鍵標記。
可選的,當鍵標記為數字類鍵標記時,數據分配規則包括:對每個數據的鍵進行模運算,根據運算結果為該數據分配服務器;和/或,當鍵標記為單字符類鍵標記和/或字符串類鍵標記時,數據分配規則包括:根據各個數據的鍵中包含的相同字符的個數,對各個數據的鍵進行聚類處理,根據聚類處理的結果為各個數據分配服務器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611178256.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種計算機集群作業調度方法及其裝置
- 下一篇:一種工作負載預測方法及裝置





