[發明專利]組串選配流式大數據平臺設計在審
| 申請號: | 202110426461.5 | 申請日: | 2021-04-20 |
| 公開(公告)號: | CN113051061A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 楊余旺;邱修林;王吟吟;陳霆希;張保良;張宛儉;馬金海 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F16/25;G06F16/27 |
| 代理公司: | 北京盛凡智榮知識產權代理有限公司 11616 | 代理人: | 范國剛 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 選配 流式大 數據 平臺 設計 | ||
1.一種基于網絡編碼的端到端實時可靠傳輸方法,其特征在于,使用分布式的Flume進行實時的數據獲取,通過對文件或接口等進行監控,實時讀取最新的數據。數據處理平臺主要由Hadoop和Spark組成,Hadoop提供底層支持,使用Hive、Phoenix進行ETL操作,接流式處理與離線操作結合到一起。
2.如權利要求1,RDD從存儲系統如HDFS和Scala集合類型中創建得到,此時得到的RDD在Spark的RDD空間中,對新創建的RDD進行轉換、緩存等操作得到的RDD仍然保存在Spark的RDD空間中。
3.如權利要求1,Spark程序執行支持多種運行模式,其中包含Local模式、Standalone模式、Local cluster模式、Mesos模式、YARN standalone/YARN cluster模式以及YARNclient模式。
4.如權利要求3,Spark應用程序包含了集群中若干獨立的進程,其中Spark Context和Executor是所有Spark應用程序都有的部分。Worker節點是負責運行Executor的機器。Spark Context由程序啟動,它與Executor進行通信是依靠資源調度模塊的。
5.如權利要求4,一個Spark的Application會被劃分為多個Job,每個Job內部又包含多個相互關聯的之間有沒有Shuffle依賴的Stage,Stage中又包含多個TaskSet,TaskSet中包含的則是每個分區數據集上最小的處理流程單元Task。
6.如權利要求5,對Spark Streaming的性能優化主要從兩個方面著手,一個是對運行時間進行優化,另一個是對內存使用進行優化。
7.如權利要求6,對內存使用進行優化的方法是控制批處理間隔內的數據量、及時清理不再使用的數據及觀察及適當調整GC策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110426461.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙層輥道自動翻身機
- 下一篇:一種血液科一體式護理床
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





