[發明專利]一種實現批量數據處理的方法、系統和計算機集群有效
| 申請號: | 201610195313.6 | 申請日: | 2016-03-30 |
| 公開(公告)號: | CN107291720B | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 屈晉宇 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06Q40/02 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 黃熊 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 批量 數據處理 方法 系統 計算機 集群 | ||
1.一種實現批量數據處理的方法,其特征在于,包括:
基于海量數據的原始數據表中至少兩個不相關的維度建立處理任務表;
選擇所述維度中的一個,并基于所選擇的維度中不同值對應數據的量設置任務的并發撈取數量;
在所述并發撈取數量限制下并發撈取所述處理任務表中的待處理任務;
處理所述撈取到的待處理任務所對應的原始數據表中的數據。
2.如權利要求1所述的方法,其特征在于,所述至少兩個不相關的維度包括:至少兩個值隨序號變化規律不相同的維度。
3.如權利要求1所述的方法,其特征在于,所述基于海量數據的原始數據表中至少兩個不相關的維度建立處理任務表,包括:
基于海量數據的原始數據表中第一維度建立數據分表;
基于建立的數據分表并根據所述原始數據表中的第二維度建立處理任務表。
4.如權利要求1所述的方法,其特征在于,所述基于所選擇的維度中不同值對應數據的量設置任務的并發撈取數量,包括:
基于所選擇的維度中不同值對應數據占總數據量的比例來設置任務的并發撈取數量。
5.如權利要求1所述的方法,其特征在于,當并發撈取時撈取到同一條待處理任務時,先撈取到該待處理任務的執行對應的原始數據表中的數據處理。
6.如權利要求5所述的方法,其特征在于,后撈取到該待處理任務的放棄處理,并進行下次撈取。
7.如權利要求1所述的方法,其特征在于,所述并發撈取數量根據限制數據處理的速度及數據庫的負載壓力的要求調整。
8.一種實現批量數據處理的系統,其特征在于,包括數據庫和計算機集群,其中:
所述數據庫基于海量數據的原始數據表中至少兩個不相關的維度建立處理任務表;選擇所述維度中的一個,并基于所選擇的維度中不同值對應數據的量設置任務的并發撈取數量;
所述計算機集群在所述并發撈取數量限制下并發撈取所述處理任務表中的待處理任務,并處理所述撈取到的待處理任務所對應的原始數據表中的數據。
9.如權利要求8所述的系統,其特征在于,所述至少兩個不相關的維度包括:至少兩個值隨序號變化規律不相同的維度。
10.如權利要求8所述的系統,其特征在于,所述數據庫包括:
第一建立單元,基于海量數據的原始數據表中第一維度建立數據分表;
第二建立單元,基于建立的數據分表并根據所述原始數據表中的第二維度建立處理任務表。
11.如權利要求8所述的系統,其特征在于,所述數據庫基于所選擇的維度中不同值對應數據占總數據量的比例來設置任務的并發撈取數量。
12.如權利要求8所述的系統,其特征在于,當所述計算機集群中不同服務器并發撈取時撈取到同一條待處理任務時,先撈取到該待處理任務的服務器執行對應的原始數據表中的數據處理。
13.如權利要求12所述的系統,其特征在于,后撈取到該待處理任務的服務器放棄處理,并進行下次撈取。
14.如權利要求8所述的系統,其特征在于,所述并發撈取數量根據限制數據處理的速度及數據庫的負載壓力的要求調整。
15.一種實現批量數據處理的方法,其特征在于,包括:
選擇海量數據的原始數據表中一個維度,并基于所選擇的維度建立處理任務表;
基于所選擇維度中不同值對應數據的量設置任務的并發撈取數量;
在所述并發撈取數量限制下并發撈取所述處理任務表中的待處理任務;
處理所述撈取到的待處理任務所對應的原始數據表中的數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610195313.6/1.html,轉載請聲明來源鉆瓜專利網。





