[發明專利]數據處理組件的配置方法及系統在審
| 申請號: | 202010849076.7 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN114077494A | 公開(公告)日: | 2022-02-22 |
| 發明(設計)人: | 方艾;徐雄;張玉忠;梁冰;譚曉敏;趙華;楊豪杰;李長江;金鐸;袁立宇 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 于麗 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 組件 配置 方法 系統 | ||
本公開涉及數據處理組件的配置方法及系統,所述方法包括:需求解析步驟,利用分析模型對用戶提交的數據處理任務描述進行解析,得到數據處理任務的特征值、以及包括時間限制和預算限制的指標值;組件選擇步驟,根據所述解析結果,利用決策模型進行決策,得到用于數據處理的組件或組件組合的候選項及評分排名;配置轉換步驟,利用容量規劃模型對所選的執行數據處理任務的組件進行資源配置,并將數據處理任務描述轉換成適合所選組件的描述,提交運算系統執行;以及模型提供步驟,提供所述分析模型、所述決策模型以及所述容量規劃模型。
技術領域
本公開涉及計算機數據處理領域。更具體地,本公開涉及在數據處理領域中用于計算框架及組件的智能選擇的數據處理組件的配置方法及系統。
背景技術
隨著計算機網絡技術的發展和信息化的推進,大數據處理已廣泛普及。融合多種計算框架的數據處理平臺也隨之興起。這樣的數據處理平臺能夠提供多種數據處理的運算框架及其組件,常見的有例如Hive-MapReduce、Spark-MapReduce、Flink、Elasticsearch等。這些框架有各自的特點和擅長的處理場景。其中,Hive-MapReduce是基于分布式文件系統和MapReduce算法的計算引擎,由于基于磁盤文件,性能較低,但代價也較低。Spark-MapReduce基于內存,是采用高效的內存運算、RDD數據結構和MapReduce算法的計算框架,性能較高,適合迭代運算等數據量大、運算量大的場景;但由于消耗大量內存,代價較高。Flink與Spark類似,但使用不同架構,是基于內存/磁盤的流式計算框架,在實時流式處理上更有優勢,適用于實時運算,性能較好。Elasticsearch是基于索引結構的分布式存儲與檢索、運算框架,檢索性能高,適用于全文檢索、地理位置分析等場景。
然而,面對以上各類運算組件,普通用戶在選型上往往存在困難。當面對不同的數據處理任務時,同一用戶由于無法精通所有組件,通常局限于選擇自身熟悉的一種去應對不同數據處理任務。因此,不同組件的優勢無法互補,平臺的功能及整合能力也得不到充分發揮。
當在數據處理任務中選擇和配置計算框架及組件時,根據一種現有技術,通過將任務發給各個引擎,對數據表進行掃描,預判執行時間,選擇時間最短的引擎。但對數據表進行掃描會消耗大量時間,極大地降低任務的執行速度。根據另一種現有技術,通過將任務拆解為子任務,通過篩選的方式來選取運算框架,并預測時間和消耗的資源。但其中沒有對資源配置進行限定的機制,實際上采用了貪婪模式,這會降低系統資源的整體利用效率。因此,在利用融合多種計算框架的數據處理平臺進行數據處理業務的實際應用中,如何降低用戶使用成本、充分發揮平臺資源整合能力,以實現用戶友好、平臺高效運行的雙贏,成為業內亟待解決的課題。
發明內容
在現有技術中尚無成熟的能夠使用戶以低成本實現數據處理平臺的數據處理組件的有效配置、同時優化平臺資源利用的數據處理組件的配置方案。有鑒于此,本公開的目的在于提供一種數據處理組件的配置方法及系統,通過解析用戶提交的數據處理任務的特征值、以及包括時間限制和預算限制的指標值,結合運算系統平臺資源情況等因素,智能選擇并配置最優的運算組件或組件組合,由此降低了用戶的使用成本,充分高效地發揮了平臺的資源整合能力,實現了用戶和平臺的雙贏。
在下文中給出了關于本公開的簡要概述,以便提供關于本公開的一些方面的基本理解。但是,應當理解,這個概述并不是關于本公開的窮舉性概述。它并不是意圖用來限定本公開的關鍵性部分或重要部分,也不是意圖用來限定本公開的范圍。其目的僅僅是以簡化的形式給出關于本公開的某些概念,以此作為稍后給出的更詳細描述的前序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010849076.7/2.html,轉載請聲明來源鉆瓜專利網。





