[發明專利]一種面向Spark Streaming平臺的數據接收通道動態分配方法有效
| 申請號: | 201711247686.4 | 申請日: | 2017-12-01 |
| 公開(公告)號: | CN108037998B | 公開(公告)日: | 2019-05-24 |
| 發明(設計)人: | 梁毅;丁振興;李碩;丁治明 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 spark streaming 平臺 數據 接收 通道 動態分配 方法 | ||
本發明公開一種面向Spark Streaming平臺的數據接收通道動態分配方法,分配方法主要分為六個步驟:初始化、數據接收通道接收能力評估、基于馬爾可夫鏈模型的流式數據到達速率變化狀態預測、數據接收通道動態分配決策、數據接收通道組件回收與追增和回溯。本方法依據Spark Streaming應用的數據接收能力及流式數據到達速率的變化預測,為流式應用在線自動化地增加和減少數據通道的分配部署,確保數據處理的時效性以及提升通道組件資源和批處理引擎計算能力的利用率。
技術領域
本發明屬于流式大數據計算領域,具體涉及批量流式數據處理平臺的組件資源動態分配方法。
背景技術
流式數據是大數據領域的一種重要的數據形態,具有規模連續無限、產生動態波動以及處理高時效性等特征。Spark Streaming批量流式計算平臺是流式大數據處理領域的最新技術進展。該平臺的核心特征是將流式大數據按時間順序切分為多個數據塊,并周期性地使用Spark批處理計算引擎對數據塊進行并行處理,以獲取近實時的數據處理響應和較高的數據吞吐率。Spark Streaming已廣泛運用于流量統計、日志分析等領域,成為批量流式計算平臺的代表。
數據接收通道(Receiver)是Spark Streaming平臺的核心組件,負責接收連續到達的流式數據,并對數據進行緩存。數據接收通道中的緩存數據每隔固定的塊生成間隔周期(BlockInterval)將被聚集為數據塊,數據塊則以更大的批處理周期(BatchInterval)被并行處理。既有Spark Streaming平臺采用靜態數據接收通道分配技術,即在應用啟動時,依據用戶配置參數,為應用一次性分配相應數量的數據接收通道,并在應用運行過程中維持不變。
然而,由于平臺用戶對流式應用的負載特征及資源需求往往缺乏充分的了解,用戶級通道參數配置具有較大的盲目性。另一方面,流式數據負載往往具有較強的波動性,這與上述靜態分配方法構成一對矛盾。在流式數據負載到達強度較小時,靜態數據接收通道配置導致數據接收通道利用率低下;在流式數據負載到達強度增大時,靜態數據接收通道配置將導致通道產生數據接收瓶頸,限制了每一個批處理周期內可處理的數據塊數量與規模,無法充分利用批處理引擎的并行計算能力。實驗測試表明,當Spark Streaming應用的數據接收通道產生瓶頸時,批處理周期內數據有效計算時間僅占25%。
發明內容
針對上述問題,本文提出了Spark Streaming數據接收通道動態分配方法。該方法的核心思想是依據Spark Streaming應用的數據接收能力及流式數據到達速率變化狀態的預測,為流式應用在線自動化地增加和減少數據通道的分配部署,確保數據處理的時效性以及通道組件資源和批處理引擎計算能力的有效利用。
在本發明中,依據Spark Streaming數據接收通道工作原理,選取數據接收通道組件中數據緩存區的空間利用率作為數據通道接收能力的量化表征。本發明中,選取馬爾可夫鏈模型作為理論工具,對流式數據到達速率狀態變化進行預測。馬爾可夫鏈模型是一種經典的概率模型,它研究的是某一狀態到另一狀態轉移的規律。由馬爾可夫鏈的無后效性可知,系統未來所處的狀態與過去狀態無關,而只與當前的狀態有關。Spark Streaming流式應用的數據到達速率變化具有很大的隨機性,下一秒數據到達速率的狀態變化往往和當前的狀態有較強的相關性。因此,利用馬爾可夫鏈模型預測流式數據到達速率的變化趨勢具有較好的可行性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711247686.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:脹管操作裝置及具有其的脹管機
- 下一篇:一種鋰硫電池正極材料的制備方法





