[發明專利]一種云計算環境下的大數據存儲和處理平臺及處理方法有效
| 申請號: | 201710964272.7 | 申請日: | 2017-10-17 |
| 公開(公告)號: | CN107943555B | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 何克晶;曾巧巧 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06F9/50 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 計算 環境 數據 存儲 處理 平臺 方法 | ||
1.云計算環境下的大數據存儲和處理平臺的處理方法,其特征在于,所述處理方法運行在云計算環境下的大數據存儲和處理平臺上,所述大數據存儲和處理平臺包括:集群計算框架、集群資源管理器、存儲系統、彈性集群管理中心,以及應用程序框架;
所述集群計算框架,用于對用戶提交的作業針對不同的業務處理需求進行批處理、流式處理以及交互式處理操作;
所述集群資源管理器,用于負責管理及調度集群資源和作業;
所述存儲系統,用于負責輸入數據集、處理結果及日志信息的存儲管理;
所述彈性集群管理中心,用于負責接收用戶的請求、管理用戶提交的工作流、監控集群和作業的執行狀況、管理集群的配置信息、引導集群和應用程序框架以及保證整個集群的運行是可靠的;
所述應用程序框架,用于構建數據倉庫、為大型數據集提供更高層次的抽象處理以及準實時處理;
所述彈性集群管理中心包括用戶請求處理器、集群配置管理器、集群引導管理器、作業流程管理器、集群狀態監視器、以及集群管理控制器6個模塊;
所述用戶請求處理器,用于負責接收來自管理客戶端、管理接口以及管理命令行用戶的請求,并將它轉發給相應組成部分;
所述集群配置管理器,用于負責管理集群的配置信息,包括集群虛擬機配置信息、作業配置信息、集群運行策略、以及作業執行策略;
所述集群引導管理器,用于負責集群虛擬機以及計算框架的啟動及關閉,以及其它應用程序的引導操作,另外,集群引導管理器也負責調用集群資源重分配的接口;
所述作業流程管理器,用于負責根據用戶提交到集群配置管理器的作業相關配置來對整個作業流進行管理與監控;
所述集群狀態監視器,用于負責收集集群整體的運行狀況并對其進行簡單的性能分析、評估及展示;
所述集群管理控制器,用于負責監控用戶請求處理器、集群配置管理器、集群引導管理器、作業流程管理器、集群狀態監視器五個模塊的運行,保證整個彈性集群管理中心正常工作;
該方法包括集群配置初始化并創建集群、向集群提交作業流、作業流調度執行、集群資源重新分配、終止集群及獲取處理結果這五個方面的流程步驟,具體的實現步驟如下:
S1、集群配置初始化并創建集群:用戶登錄到集群管理控制臺前,需在最佳的外部存儲上創建輸入數據集、腳本文件的存儲目錄;然后,用戶初始化集群配置和設置集群的運行策略,集群配置包括選擇不同類型下的不同規格的虛擬機節點并選擇出主節點;此時,用戶若選擇立即啟動虛擬機集群,則彈性集群管理中心的集群引導管理器會加載集群配置管理器中的集群引導操作的相關配置信息,并引導啟動虛擬機集群,所述最佳的外部存儲即將安全性、高效性及可擴展性作為集群數據源的選擇依據,并選擇性創建集群運行日志存儲目錄;
S2、向集群提交作業流:啟動虛擬機集群后,用戶向集群提交一系列作業步驟,在提交作業步驟時,需要指定輸入數據集、腳本文件、集群日志文件位置以及腳本文件的運行參數信息;與此同時,用戶設置作業步驟的調度策略,這些作業配置信息會提交給彈性集群管理中心的用戶請求處理器,最終會交由集群配置管理器進行存儲管理;在作業步驟配置完后,選擇立刻調度執行,則集群引導管理器會啟動集群計算框架及可選的應用程序,并通知集群的主節點根據集群配置信息通過專用網絡拷貝存儲在外部存儲的輸入數據集及腳本數據,之后,集群資源管理器會給各節點分配資源,并開始調度執行當前作業步驟;
S3、作業流調度執行:在作業的運行過程中,集群資源管理器會向集群主節點反饋各節點的資源負載及作業執行狀況,這些信息會通過主節點最終匯報給彈性集群管理中心的作業流程管理器以及集群狀態監視器,作業流程管理器根據集群配置管理器中的作業相關配置信息,對用戶提交的作業流進行監控管理,以及對作業步驟的調度,而集群控制管理器會保障集群各個模塊的正常運行,恢復并重新啟動故障模塊;
彈性集群管理中心的集群狀態監視器會實時監控集群的健康狀況,并進行簡單的分析、評估以及可視化的操作;通過集群配置管理器、集群狀態監視器、集群引導管理器以及集群管理控制器這四個模塊的協調工作自動伸縮集群節點,以及動態的更改集群實例節點的內存容量、處理器核心數量;
S4、集群資源重新分配:用戶在作業執行的過程中,實時對集群資源進行重分配;用戶通過控制臺提交修改后的集群配置信息,修改后的集群配置信息會通過用戶請求處理器,最終交由集群配置管理器,以重新給集群分配資源,而對于集群自動調整資源分布,是由集群配置管理器、集群管理控制器、集群狀態監視器以及集群引導管理器四個模塊的協調工作,以達到集群資源自動重分配的目的;
所述集群資源重新分配是通過自動及手動的方式進行,每種分配方式都包括粗粒度的伸縮集群節點,以及細粒度的調整實例節點的處理器核心數量、處理進程數和對應的線程數;
彈性集群管理中心的集群引導管理器通過與集群主節點進行通信,以觸發添加或移除集群節點的接口,以及調整集群節點資源的接口,通過調試接口對集群資源進行粗粒度的動態添加或移除虛擬機,或重新設置集群實例節點的內存容量、處理器核心數量、工作進程數量以及每個工作進程所包含的線程數;
S5、終止集群及獲取處理結果:當用戶提交的整個作業流調度完畢后,集群主節點會刪除集群虛擬機節點的緩存,并且會將作業的處理結果及集群日志拷貝到用戶設置的相應的外部存儲,而此時作業流程管理器會加載集群配置管理器的配置信息以調用集群引導管理器,對集群執行關閉操作,或者保持集群持續運行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710964272.7/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





