[發(fā)明專利]提升Spark結(jié)構(gòu)化流文件數(shù)據(jù)源讀取性能方法及裝置在審
| 申請?zhí)枺?/td> | 202011271625.3 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112269765A | 公開(公告)日: | 2021-01-26 |
| 發(fā)明(設(shè)計)人: | 周朝衛(wèi) | 申請(專利權(quán))人: | 中盈優(yōu)創(chuàng)資訊科技有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/174 |
| 代理公司: | 上海嘉藍(lán)專利代理事務(wù)所(普通合伙) 31407 | 代理人: | 盧化宇 |
| 地址: | 201800 上海市嘉定區(qū)安*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 提升 spark 結(jié)構(gòu) 文件 數(shù)據(jù)源 讀取 性能 方法 裝置 | ||
1.提升Spark結(jié)構(gòu)化流文件數(shù)據(jù)源讀取性能方法,其特征在于,包括以下步驟:
(1)對新增的待監(jiān)控文件數(shù)據(jù)源同步生成一份配置其基本信息的元數(shù)據(jù)文件;
(2)讀取存儲上一批次任務(wù)對應(yīng)的文件列表以及上一批次任務(wù)消費的文件在元數(shù)據(jù)文件中偏移量的狀態(tài)文件,在元數(shù)據(jù)文件中,根據(jù)此偏移量,獲取待消費的文件列表,進(jìn)行處理;
(3)讀取狀態(tài)文件列表,根據(jù)清理策略對上一批次的文件進(jìn)行數(shù)據(jù)清理,并更新狀態(tài)文件。
2.根據(jù)權(quán)利要求1所述的提升Spark結(jié)構(gòu)化流文件數(shù)據(jù)源讀取性能方法,其特征在于:
將上述步驟發(fā)布為二進(jìn)制jar包,在項目中調(diào)用,經(jīng)過開發(fā)提交至spark的集群運行。
3.根據(jù)權(quán)利要求1所述的提升Spark結(jié)構(gòu)化流文件數(shù)據(jù)源讀取性能方法,其特征在于:
將上述元數(shù)據(jù)文件和狀態(tài)文件的路徑作為改造過的Spark Structured Streaming的FileStreamSource數(shù)據(jù)源類的構(gòu)造參數(shù)來用于讀取文件列表;
4.根據(jù)權(quán)利要求1所述的提升Spark結(jié)構(gòu)化流文件數(shù)據(jù)源讀取性能方法,其特征在于:
如果清理策略為刪除,則刪除上一批次對應(yīng)的數(shù)據(jù)文件。
如果清理策略為移動,則將上一批次對應(yīng)的已完成處理的文件移動至已設(shè)置的目錄進(jìn)行備份;
5.根據(jù)權(quán)利要求1所述的提升Spark結(jié)構(gòu)化流文件數(shù)據(jù)源讀取性能方法,其特征在于:
上述生成的元數(shù)據(jù)文件包括文件名、文件大小、修改時間、文件的狀態(tài)等基本信息。
6.一種提升Spark結(jié)構(gòu)化流文件數(shù)據(jù)源讀取性能裝置,其特征在于,該裝置包括:
元數(shù)據(jù)生成模塊,用于對新批次的待監(jiān)控數(shù)據(jù)源文件同步生成一份元數(shù)據(jù)文件;
數(shù)據(jù)源讀取模塊,用于讀取存儲上一批次任務(wù)對應(yīng)的文件列表以及上一批次任務(wù)消費的文件在元數(shù)據(jù)文件中偏移量的狀態(tài)文件,在元數(shù)據(jù)文件中,根據(jù)此偏移量,獲取待消費的文件列表,進(jìn)行處理;
數(shù)據(jù)源清理模塊,用于根據(jù)狀態(tài)文件列表,根據(jù)清理策略對上一批次的文件進(jìn)行數(shù)據(jù)清理,并更新狀態(tài)文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中盈優(yōu)創(chuàng)資訊科技有限公司,未經(jīng)中盈優(yōu)創(chuàng)資訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011271625.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Spark平臺性能自動優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





