[發(fā)明專利]一種基于Spark的小文件合并方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201911216907.0 | 申請日: | 2019-12-03 |
| 公開(公告)號: | CN111008235A | 公開(公告)日: | 2020-04-14 |
| 發(fā)明(設計)人: | 查文宇;張艷清;王純斌;趙神州;費滔 | 申請(專利權)人: | 成都四方偉業(yè)軟件股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/18 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 spark 文件 合并 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于Spark的小文件合并方法及系統(tǒng),本方案通過定時合并小文件任務,根據(jù)任務規(guī)則將多個分區(qū)中的多個文件合并成1個文件,降低小文件散落數(shù)量,當查詢Hive庫中數(shù)據(jù)時能降低磁盤讀取負荷,網(wǎng)絡傳輸消耗,數(shù)據(jù)合并等過程提升數(shù)據(jù)查詢效率。解決了現(xiàn)有方案對源數(shù)據(jù)庫中的數(shù)據(jù)抽取到Hive庫中,Spark同時多個任務同時讀取源數(shù)據(jù)庫數(shù)據(jù),并將數(shù)據(jù)寫入到不同分區(qū)中導致的磁盤讀取倍增、數(shù)據(jù)查詢性能就會下降的問題。
技術領域
本發(fā)明涉及商業(yè)智能分析平臺領域,特別涉及一種基于Spark的小文件合并方法及系統(tǒng)。
背景技術
商業(yè)智能(Business Intelligence,簡稱:BI),又稱商業(yè)智慧或商務智能,指用現(xiàn)代數(shù)據(jù)倉庫技術、線上分析處理技術、數(shù)據(jù)挖掘和數(shù)據(jù)展現(xiàn)技術進行數(shù)據(jù)分析以實現(xiàn)商業(yè)價值。
商業(yè)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助企業(yè)做出明智的業(yè)務經(jīng)營決策的工具。這里所談的數(shù)據(jù)包括來自企業(yè)業(yè)務系統(tǒng)的訂單、庫存、交易賬目、客戶和供應商等來自企業(yè)所處行業(yè)和競爭對手的數(shù)據(jù)以及來自企業(yè)所處的其他外部環(huán)境中的各種數(shù)據(jù)。而商業(yè)智能能夠輔助的業(yè)務經(jīng)營決策,既可以是操作層的,也可以是戰(zhàn)術層和戰(zhàn)略層的決策。為了將數(shù)據(jù)轉(zhuǎn)化為知識,需要利用數(shù)據(jù)倉庫、聯(lián)機分析處理(OLAP)工具和數(shù)據(jù)挖掘等技術。因此,從技術層面上講,商業(yè)智能不是什么新技術,它只是數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘等技術的綜合運用。
可以認為,商業(yè)智能是對商業(yè)信息的搜集、管理和分析過程,目的是使企業(yè)的各級決策者獲得知識或洞察力(insight),促使他們做出對企業(yè)更有利的決策。商業(yè)智能一般由數(shù)據(jù)倉庫、聯(lián)機分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復等部分組成。商業(yè)智能的實現(xiàn)涉及到軟件、硬件、咨詢服務及應用,其基本體系結(jié)構(gòu)包括數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘三個部分。
因此,把商業(yè)智能看成是一種解決方案應該比較恰當。商業(yè)智能的關鍵是從許多來自不同的企業(yè)運作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù)并進行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽取(Extraction)、轉(zhuǎn)換(Transformation)和裝載(Load),即ETL過程,合并到一個企業(yè)級的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具(大數(shù)據(jù)魔鏡)、OLAP工具等對其進行分析和處理(這時信息變?yōu)檩o助決策的知識),最后將知識呈現(xiàn)給管理者,為管理者的決策過程提供支持。
現(xiàn)有方案對源數(shù)據(jù)庫中的數(shù)據(jù)抽取到Hive庫中,Spark同時進行多個任務同時讀取源數(shù)據(jù)庫數(shù)據(jù),并將數(shù)據(jù)寫入到不同分區(qū)中,當數(shù)據(jù)落地到hadoop文件系統(tǒng)中就會產(chǎn)生每個分區(qū)多個文件,且當用戶再次進行數(shù)據(jù)增量抽取時文件會呈指數(shù)增長,文件個數(shù)增長后系統(tǒng)查詢文件系統(tǒng)的數(shù)據(jù)時,磁盤讀取倍增、數(shù)據(jù)查詢性能就會下降。
發(fā)明內(nèi)容
本發(fā)明的目的在于:提供了一種基于Spark的小文件合并方法及系統(tǒng),解決了現(xiàn)有方案對源數(shù)據(jù)庫中的數(shù)據(jù)抽取到Hive庫中,Spark同時多個任務同時讀取源數(shù)據(jù)庫數(shù)據(jù),并將數(shù)據(jù)寫入到不同分區(qū)中導致的磁盤讀取倍增、數(shù)據(jù)查詢性能就會下降的問題。
本發(fā)明采用的技術方案如下:
一種基于Spark的小文件合并方法,基于源數(shù)據(jù)庫、帶有Spark引擎的商業(yè)智能分析平臺和裝載有hadoop文件系統(tǒng)的Hive數(shù)據(jù)庫,還包括以下步驟:
S1、用戶通過商業(yè)智能分析平臺操作源數(shù)據(jù)庫并配置數(shù)據(jù)抽取功能;
S2、商業(yè)智能分析平臺根據(jù)用戶配置的N個抽取分區(qū)讀取源數(shù)據(jù)庫中的數(shù)據(jù),將抽取的數(shù)據(jù)寫入到Hive數(shù)據(jù)庫中M個分區(qū)中,每個分區(qū)文件數(shù)為N個,M、N均為正整數(shù);
S3、hadoop文件系統(tǒng)根據(jù)用戶預錄入的時間周期和任務規(guī)則對M個分區(qū)中的文件進行合并。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都四方偉業(yè)軟件股份有限公司,未經(jīng)成都四方偉業(yè)軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911216907.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種高強抗?jié)B抗凍混凝土及其制備方法
- 下一篇:皮料直接腌制工藝





