[發(fā)明專利]一種基于Spark的小文件合并方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201911216907.0 | 申請(qǐng)日: | 2019-12-03 |
| 公開(kāi)(公告)號(hào): | CN111008235A | 公開(kāi)(公告)日: | 2020-04-14 |
| 發(fā)明(設(shè)計(jì))人: | 查文宇;張艷清;王純斌;趙神州;費(fèi)滔 | 申請(qǐng)(專利權(quán))人: | 成都四方偉業(yè)軟件股份有限公司 |
| 主分類號(hào): | G06F16/25 | 分類號(hào): | G06F16/25;G06F16/18 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 610041 四川省*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 spark 文件 合并 方法 系統(tǒng) | ||
1.一種基于Spark的小文件合并方法,基于源數(shù)據(jù)庫(kù)、帶有Spark引擎的商業(yè)智能分析平臺(tái)和裝載有hadoop文件系統(tǒng)的Hive數(shù)據(jù)庫(kù),其特征在于:還包括以下步驟:
S1、用戶通過(guò)商業(yè)智能分析平臺(tái)操作源數(shù)據(jù)庫(kù)并配置數(shù)據(jù)抽取功能;
S2、商業(yè)智能分析平臺(tái)根據(jù)用戶配置的N個(gè)抽取分區(qū)讀取源數(shù)據(jù)庫(kù)中的數(shù)據(jù),將抽取的數(shù)據(jù)寫入到Hive數(shù)據(jù)庫(kù)中M個(gè)分區(qū)中,每個(gè)分區(qū)文件數(shù)為N個(gè),M、N均為正整數(shù);
S3、hadoop文件系統(tǒng)根據(jù)用戶預(yù)錄入的時(shí)間周期和任務(wù)規(guī)則對(duì)M個(gè)分區(qū)中的文件進(jìn)行合并。
2.根據(jù)權(quán)利要求1所述的一種基于Spark的小文件合并方法,其特征在于:所述商業(yè)智能分析平臺(tái)包括與源數(shù)據(jù)庫(kù)匹配的數(shù)據(jù)集,在步驟S1中,用戶通過(guò)商業(yè)智能分析平臺(tái)中的數(shù)據(jù)集的數(shù)據(jù)集處理節(jié)點(diǎn)操作源數(shù)據(jù)庫(kù)并配置數(shù)據(jù)抽取功能。
3.根據(jù)權(quán)利要求1所述的一種基于Spark的小文件合并方法,其特征在于:所述步驟S2中商業(yè)智能分析平臺(tái)根據(jù)用戶配置的N個(gè)抽取分區(qū)讀取源數(shù)據(jù)庫(kù)中的數(shù)據(jù)的方法為:Spark引擎同時(shí)執(zhí)行N個(gè)任務(wù)讀取源數(shù)據(jù)庫(kù)數(shù)據(jù),并將數(shù)據(jù)寫入到M個(gè)分區(qū)中。
4.根據(jù)權(quán)利要求1所述的一種基于Spark的小文件合并方法,其特征在于:所述步驟S3中hadoop文件系統(tǒng)根據(jù)用戶預(yù)錄入的時(shí)間周期和任務(wù)規(guī)則對(duì)M個(gè)分區(qū)中的文件進(jìn)行合并的方法包括以下步驟:
S301、用戶對(duì)hadoop文件系統(tǒng)進(jìn)行配置,設(shè)置hadoop文件系統(tǒng)進(jìn)行文件合并的周期,配置文件合并的任務(wù)規(guī)則;
S302、hadoop文件系統(tǒng)啟動(dòng)后開(kāi)始計(jì)時(shí),計(jì)時(shí)達(dá)到步驟S301中周期預(yù)設(shè)的時(shí)間后,hadoop文件系統(tǒng)根據(jù)步驟S301配置的任務(wù)規(guī)則對(duì)M個(gè)分區(qū)中的文件進(jìn)行合并;
S303、hadoop文件系統(tǒng)完成文件合并后重置計(jì)時(shí)器然后轉(zhuǎn)入步驟S302。
5.根據(jù)權(quán)利要求4所述的一種基于Spark的小文件合并方法,其特征在于:所述步驟S302中的任務(wù)規(guī)則包括:按文件名稱進(jìn)行排序后合并、按文件創(chuàng)建時(shí)間進(jìn)行排序后合并、按文件修改時(shí)間進(jìn)行排序后合并及按文件大小進(jìn)行排序后合并。
6.根據(jù)權(quán)利要求4所述的一種基于Spark的小文件合并方法,其特征在于:所述步驟S303合并后的文件包括:文件頭和文件內(nèi)容,所述文件頭包括合并前所有文件的名稱,所述文件內(nèi)容包括合并前所有文件的數(shù)據(jù)。
7.一種基于Spark的小文件合并系統(tǒng),其特征在于:包括源數(shù)據(jù)庫(kù)、帶有Spark引擎的商業(yè)智能分析平臺(tái)和基于hadoop文件系統(tǒng)的Hive數(shù)據(jù)庫(kù);
所述Hive數(shù)據(jù)庫(kù)包括:
存儲(chǔ)器,用于存儲(chǔ)可執(zhí)行指令及文件;
處理器,用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行指令,實(shí)現(xiàn)如權(quán)利要求1所述的一種基于Spark的小文件合并方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都四方偉業(yè)軟件股份有限公司,未經(jīng)成都四方偉業(yè)軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911216907.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種Spark平臺(tái)性能自動(dòng)優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品





