[發明專利]一種集群的數據處理方法及裝置有效
| 申請號: | 201611193097.8 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN108234566B | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 李靜;李爐陽 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 蔣冬梅;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 集群 數據處理 方法 裝置 | ||
本文公開了一種集群的數據處理方法及裝置;上述集群的數據處理方法,包括:獲取第一預定時長內多個集群上運行的任務的屬性信息;根據獲取的任務的屬性信息,確定待復制數據以及需要復制待復制數據的目標集群,以便將待復制數據復制到目標集群。
技術領域
本發明涉及網絡通信領域,尤其涉及一種集群的數據處理方法及裝置。
背景技術
隨著大數據時代的到來,數據業務蓬勃發展,存儲規模和計算規模以井噴模式快速增長。但是,分布式系統的集群所在的單機房物理機器容量都是有限制的,單機房物理機器的數量不可能無限增長,因此,出現了跨地域多機房多集群的格局。然而,多機房多集群之間互相通信、互相讀取數據需要耗費巨大的網絡帶寬。
目前,在跨地域多機房場景下,當網絡帶寬遇到瓶頸時,網絡運維人員一般會進行限流操作,或者是硬性增加網絡帶寬。然而,當進行限流操作時會導致集群的計算任務延遲,從而影響用戶體驗。另外,硬性增加網絡帶寬會導致增加成本。
發明內容
以下是對本文詳細描述的主題的概述。本概述并非是為了限制權利要求的保護范圍。
本申請實施例提供一種集群的數據處理方法及裝置,能夠減少任務延遲,優化集群的網絡流量。
本申請實施例提供一種集群的數據處理方法,包括:
獲取第一預定時長內多個集群上運行的任務的屬性信息;
根據獲取的任務的屬性信息,確定待復制數據以及需要復制所述待復制數據的目標集群,以便將所述待復制數據復制到所述目標集群。
其中,所述根據獲取的任務的屬性信息,確定待復制數據以及需要復制所述待復制數據的目標集群之后,所述數據處理方法還可以包括:
生成復制列表,所述復制列表用于記錄所述待復制數據的位置信息、需要復制所述待復制數據的目標集群;
將所述復制列表寫入元數據庫,以便相關集群獲取所述復制列表。
其中,所述數據處理方法還可以包括:
指示目標集群根據所述復制列表,復制所述待復制數據。
其中,所述獲取第一預定時長內多個集群上運行的任務的屬性信息,可以包括:周期性獲取第一預定時長內多個集群上運行的任務的屬性信息。
其中,每個任務的屬性信息至少包括:運行所述任務的集群、所述任務所讀取的數據所在的集群。
其中,所述根據獲取的任務的屬性信息,確定待復制數據以及需要復制所述待復制數據的目標集群,可以包括:
根據獲取的任務的屬性信息,從任務跨集群讀取的數據中,篩選出符合預定條件的數據作為待復制數據。
其中,所述篩選出符合預定條件的數據作為待復制數據,可以包括:
篩選出第一參數值滿足第一條件且第二參數值滿足第二條件的數據作為待復制數據;
其中,針對每個任務跨集群讀取的數據,所述第一參數值為在第二預定時長內運行所述任務的集群讀取所述數據的次數;所述第二參數值為在第一預定時長內所述第一參數值滿足第一條件的總次數或連續次數;所述第二預定時長小于所述第一預定時長;所述第一條件包括:所述第一參數值大于或等于第一閾值;所述第二條件包括:所述第二參數值大于或等于第二閾值。
本申請實施例還提供一種集群的數據處理裝置,包括:
獲取單元,用于獲取第一預定時長內多個集群上運行的任務的屬性信息;
處理單元,用于根據獲取的任務的屬性信息,確定待復制數據以及需要復制所述待復制數據的目標集群,以便將所述待復制數據復制到所述目標集群。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611193097.8/2.html,轉載請聲明來源鉆瓜專利網。





