[發明專利]分布式并行計算系統的數據分配方法及系統在審
| 申請號: | 201611042373.0 | 申請日: | 2016-11-18 |
| 公開(公告)號: | CN106598729A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 楊黎;付仲明 | 申請(專利權)人: | 深圳市證通電子股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 并行 計算 系統 數據 分配 方法 | ||
1.一種分布式并行計算系統的數據分配方法,其特征在于,包括:
估算輸入數據集中的各個聚類的占用空間;
根據所述輸入數據集的各個聚類的占用空間以及預設的各個數據塊的剩余空間,建立各個聚類以及存儲所述聚類的各個數據塊的對應關系;
根據各個聚類以及存儲所述聚類的各個數據塊的對應關系,將各個所述聚類存儲于對應的數據塊中。
2.如權利要求1所述的分布式并行計算系統的數據分配方法,其特征在于,所述估算輸入數據集中的各個聚類的占用空間的步驟包括:
采用蓄水池抽樣算法抽取占所述輸入數據集總數據量預設比例的聚類作為數據集樣本;
統計所述數據集樣本的各個聚類的占用空間;
根據所述數據集樣本的各個聚類的占用空間以及所述預設比例確定輸入數據集的各個聚類的占用空間。
3.如權利要求2所述的分布式并行計算系統的數據分配方法,其特征在于,所述根據所述輸入數據集的各個聚類的占用空間以及各個數據塊的剩余空間,建立各個聚類以及存儲所述聚類的各個數據塊的對應關系的步驟包括:
計算各個數據塊的額定容量,所述額定容量等于輸入數據集的各個聚類的占用空間的總和除以數據塊的數目,其中,各個所述數據塊的初始剩余空間等于所述數據塊的額定容量;
根據數據塊的額定容量,對聚類進行分割組合后劃分到不同的數據塊中,建立分割組合后的聚類以及存儲所述分割組合后的聚類的數據塊的對應關系。
4.如權利要求3所述的分布式并行計算系統的數據分配方法,其特征在于,所述根據數據塊的額定容量,對聚類進行分割組合后劃分到不同的數據塊中的步驟包括:
按照占用空間從大到小的順序依次調用各個聚類,以及按照剩余空間從大到小的順序調用各個數據塊;
在每次調用到聚類時,判斷當前調用的聚類的占用空間是否大于當前調用的所述數據塊的剩余空間;
在當前調用的聚類的占用空間小于或等于當前調用的所述數據塊的剩余空間時,將當前調用的所述聚類劃分至當前調用的所述數據塊中,并繼續調用下一所述聚類;
在當前調用的聚類的占用空間大于當前調用的所述數據塊的剩余空間時,根據當前調用的所述數據塊的剩余空間對當前調用的所述聚類進行切割;
將切割得到的聚類劃分至當前調用的所述數據塊,將切割剩余的聚類添加至未調用的聚類中,并調用下一數據塊。
5.如權利要求1-4任一項所述的分布式并行計算系統的數據分配方法,其特征在于,所述建立各個聚類以及存儲所述聚類的各個數據塊的對應關系的步驟之后,所述分布式并行計算系統的數據分配方法還包括:
獲取各個聚類的實際占用空間;
在有聚類的所述實際占用空間在估算的所述占用空間中未估算到時,采用默認的哈希算法將所述聚類分配至數據塊中;
在有聚類的所述實際占用空間在估算的所述占用空間中估算到時,執行所述根據各個聚類以及存儲所述聚類的各個數據塊的對應關系,將各個所述聚類存儲于對應的數據塊中的步驟。
6.一種分布式并行計算系統的數據分配系統,其特征在于,包括:
估算模塊,用于估算輸入數據集中的各個聚類的占用空間;
關系建立模塊,用于根據所述輸入數據集的各個聚類的占用空間以及預設的各個數據塊的剩余空間,建立各個聚類以及存儲所述聚類的各個數據塊的對應關系;
分配模塊,用于根據各個聚類以及存儲所述聚類的各個數據塊的對應關系,將各個所述聚類存儲于對應的數據塊中。
7.如權利要求6所述的分布式并行計算系統的數據分配系統,其特征在于,所述估算模塊包括:
樣本抽取單元,用于采用蓄水池抽樣算法抽取占所述輸入數據集總數據量預設比例的聚類作為數據集樣本;
樣本統計單元,用于統計所述數據集樣本的各個聚類的占用空間;
估算單元,用于根據所述數據集樣本的各個聚類的占用空間以及所述預設比例確定輸入數據集的各個聚類的占用空間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市證通電子股份有限公司,未經深圳市證通電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611042373.0/1.html,轉載請聲明來源鉆瓜專利網。





