[發明專利]數據處理方法及服務器集群在審
| 申請號: | 201710504831.6 | 申請日: | 2017-06-27 |
| 公開(公告)號: | CN107239570A | 公開(公告)日: | 2017-10-10 |
| 發明(設計)人: | 尹正軍 | 申請(專利權)人: | 聯想(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司11021 | 代理人: | 呂雁葭 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 服務器 集群 | ||
技術領域
本公開涉及一種數據處理方法及服務器集群。
背景技術
在大規模計算集群中,經常會遇到不同計算框架加載同一張數據表的業務場景,比如集群內同時存在Impala、Hive、SparkSQL等多種計算框架,不同的計算任務可能都涉及到某一張表數據的加載,每個計算引擎都是各自加載表,這樣處理實際上重復加載了相同的數據,導致大量磁盤讀寫操作,總體性能效果差。
發明內容
本公開的一個方面提供了一種數據處理方法,應用于包括至少兩種計算框架的集群計算過程,所述方法包括,當第一計算框架執行針對第一數據表的操作時,判斷分布式內存系統中是否存在所述第一數據表對應的數據信息,若不存在,則執行所述針對第一數據表的操作,并將所述第一數據表對應的數據信息同步到所述分布式內存系統中。
可選地,所述方法包括若分布式內存系統中存在所述第一數據表對應的數據信息,則所述第一計算框架從所述分布式內存系統中加載所述第一數據表對應的數據信息。
可選地,將所述第一數據表對應的數據信息同步到所述分布式內存系統中,包括判斷所述第一數據表是否屬于可能被不同計算框架共用的數據表,所述可能被不同計算框架共用的數據表是基于數據表查詢計劃的統計數據確定的,若屬于,則將所述第一數據表對應的數據信息同步到所述分布式內存系統中。
可選地,所述執行針對第一數據表的操作包括運行針對第一數據表的查詢執行計劃。
可選地,所述判斷分布式內存系統中是否存在所述第一數據表對應的數據信息包括,所述第一計算框架獲取其他計算框架同步到所述分布式內存系統的數據表對應的數據信息,其中,所述至少兩個計算框架中的每個計算框架的存儲類是經過擴展的,以及判斷分布式內存系統中是否存在所述第一數據表對應的數據信息。
本公開的另一方面提供了一種服務器集群,包括至少一個處理器,以及至少一個存儲器。存儲器上存儲有計算機可讀程序,當所述程序被所述至少一個處理器執行時,使得所述至少一個處理器在第一計算框架執行針對第一數據表的操作的情況下,判斷分布式內存系統中是否存在所述第一數據表對應的數據信息,以及在分布式內存系統中不存在所述第一數據表的情況下,執行所述針對第一數據表的操作,并將所述第一數據表同步到所述分布式內存系統中。
可選地,所述至少一個處理器還執行,在分布式內存系統中存在所述第一數據表對應的數據信息的情況下,使所述第一計算框架從所述分布式內存系統中加載所述第一數據表中的數據對應的數據信息。
可選地,所述至少一個處理器執行將所述第一數據表對應的數據信息同步到所述分布式內存系統中,包括,判斷所述第一數據表是否屬于可能被不同計算框架共用的數據表,所述可能被不同計算框架共用的數據表是基于數據表查詢計劃的統計數據確定的,以及若屬于可能被不同計算框架共用的數據表,則將所述第一數據表對應的數據信息同步到所述分布式內存系統中。
可選地,所述執行針對第一數據表的操作包括運行針對第一數據表的查詢執行計劃。
可選地,所述至少一個處理器判斷分布式內存系統中是否存在所述第一數據表對應的數據信息包括,所述第一計算框架獲取其他計算框架同步到所述分布式內存系統的數據表對應的數據信息,其中,所述至少兩個計算框架中的每個計算框架的存儲類是經過擴展的,以及判斷分布式內存系統中是否存在所述第一數據表對應的數據信息。
本公開的另一個方面提供了一種數據處理系統,所述系統包括判斷模塊和同步模塊。判斷模塊用于當第一計算框架執行針對第一數據表的操作時,判斷分布式內存系統中是否存在所述第一數據表對應的數據信息。同步模塊用于在不存在的情況下,執行所述針對第一數據表的操作,并將所述第一數據表對應的數據信息同步到所述分布式內存系統中。
可選地,所述系統還包括加載模塊,用于在分布式內存系統中存在所述第一數據表對應的數據信息的情況下,使所述第一計算框架從所述分布式內存系統中加載所述第一數據表對應的數據信息。
可選地,所述同步模塊包括第一判斷子模塊和同步子模塊。第一判斷子模塊,用于判斷所述第一數據表是否屬于所述可能被不同計算框架共用的數據表,所述可能被不同計算框架共用的數據表是基于數據表查詢計劃的統計數據確定的。同步子模塊,用于在屬于所述可能被不同計算框架共用的數據表的情況下,將所述第一數據表對應的數據信息同步到所述分布式內存系統中。
可選地,所述執行針對第一數據表的操作包括運行針對第一數據表的查詢執行計劃。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯想(北京)有限公司,未經聯想(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710504831.6/2.html,轉載請聲明來源鉆瓜專利網。





