[發(fā)明專利]一種文件合并的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審

申請(qǐng)?zhí)枺?/td>	201911418125.5	申請(qǐng)日：	2019-12-31
公開（公告）號(hào)：	CN113127548A	公開（公告）日：	2021-07-16
發(fā)明（設(shè)計(jì)）人：	李營(yíng);張超	申請(qǐng)（專利權(quán)）人：	奇安信科技集團(tuán)股份有限公司;網(wǎng)神信息技術(shù)（北京）股份有限公司
主分類號(hào)：	G06F16/25	分類號(hào)：	G06F16/25
代理公司：	北京英特普羅知識(shí)產(chǎn)權(quán)代理有限公司 11015	代理人：	程超
地址：	100088 北京市西城區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種文件合并方法裝置設(shè)備存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種文件合并的方法，其特征在于，所述方法包括：

從HDFS中獲取HIVE的各個(gè)分區(qū)的文件，并從每個(gè)分區(qū)的文件中確定出需要合并的目標(biāo)文件；

基于每個(gè)分區(qū)的目標(biāo)文件，按照預(yù)設(shè)合并效果模型計(jì)算出每個(gè)分區(qū)的合并效果優(yōu)先級(jí)；其中，所述合并效果優(yōu)先級(jí)與目標(biāo)文件合并后對(duì)HDFS的NameNode內(nèi)存的緩解程度正相關(guān)；

分別為每個(gè)分區(qū)啟動(dòng)對(duì)應(yīng)的合并任務(wù)，并按照每個(gè)分區(qū)的合并效果優(yōu)先級(jí)，先后執(zhí)行各個(gè)合并任務(wù)，以對(duì)分區(qū)上的目標(biāo)文件進(jìn)行文件合并。

2.根據(jù)權(quán)利要求1所述的文件合并的方法，其特征在于，所述從每個(gè)分區(qū)的文件中確定出需要合并的目標(biāo)文件的步驟，具體包括：

針對(duì)一個(gè)分區(qū)的所有文件，將文件大小小于預(yù)設(shè)閾值的文件設(shè)置為所述分區(qū)的目標(biāo)文件。

3.根據(jù)權(quán)利要求1所述的文件合并的方法，其特征在于，所述基于每個(gè)分區(qū)的目標(biāo)文件，按照預(yù)設(shè)合并效果模型計(jì)算出每個(gè)分區(qū)的合并效果優(yōu)先級(jí)的步驟，具體包括：

針對(duì)一個(gè)分區(qū)，統(tǒng)計(jì)出所述分區(qū)的所有目標(biāo)文件的文件總數(shù)量和/或文件總大小；

將所述文件總數(shù)量和/或文件總大小作為特征參數(shù)輸入所述預(yù)設(shè)合并效果模型，并通過運(yùn)行所述預(yù)設(shè)合并效果模型以得到所述分區(qū)的合并效果優(yōu)先級(jí)；其中，所述預(yù)設(shè)合并效果模型是通過機(jī)器學(xué)習(xí)算法訓(xùn)練得到的。

4.根據(jù)權(quán)利要求1所述的文件合并的方法，其特征在于，所述分別為每個(gè)分區(qū)啟動(dòng)對(duì)應(yīng)的合并任務(wù)，并按照每個(gè)分區(qū)的合并效果優(yōu)先級(jí)，先后執(zhí)行各個(gè)合并任務(wù)的步驟，具體包括：

獲取Yarn上用于處理文件合并的資源總量；

確定出每個(gè)合并任務(wù)所需的資源量；

按照每個(gè)分區(qū)的合并效果優(yōu)先級(jí)對(duì)所有合并任務(wù)進(jìn)行排序，以得到任務(wù)排序結(jié)果；

根據(jù)所述資源總量以及每個(gè)合并任務(wù)所需的資源量，將所述任務(wù)排序結(jié)果劃分為多個(gè)合并批次；其中，一個(gè)合并批次包括多個(gè)合并任務(wù)；

先后將每個(gè)合并批次所包括的多個(gè)合并任務(wù)分布式的部署到Y(jié)arn中，以通過Yarn同時(shí)執(zhí)行所述多個(gè)合并任務(wù)。

5.根據(jù)權(quán)利要求1所述的文件合并的方法，其特征在于，所述方法還包括：

在將一個(gè)分區(qū)的所有目標(biāo)文件合并為一個(gè)或多個(gè)合并文件之后，將所有合并文件存儲(chǔ)到臨時(shí)目錄下；

統(tǒng)計(jì)所述分區(qū)的所有目標(biāo)文件所包含的第一數(shù)據(jù)總條數(shù)，以及統(tǒng)計(jì)所述分區(qū)的所有合并文件所包含的第二數(shù)據(jù)總條數(shù)；

判斷所述第一數(shù)據(jù)總條數(shù)與所述第二數(shù)據(jù)總條數(shù)是否一致，若是，則使用所述臨時(shí)目標(biāo)下的合并文件替換所述分區(qū)上的目標(biāo)文件；若否，則刪除所述臨時(shí)目錄下的合并文件。

6.根據(jù)權(quán)利要求5所述的文件合并的方法，其特征在于，在所述使用所述臨時(shí)目標(biāo)下的合并文件替換所述分區(qū)上的目標(biāo)文件的步驟之后，所述方法還包括：

將所述分區(qū)上的所有目標(biāo)文件存儲(chǔ)到備份目錄下，并經(jīng)過預(yù)設(shè)時(shí)間段后將所述備份目錄下的所有目標(biāo)文件刪除。

7.一種文件合并的裝置，其特征在于，所述裝置包括：

確定模塊，用于從HDFS中獲取HIVE的各個(gè)分區(qū)的文件，并從每個(gè)分區(qū)的文件中確定出需要合并的目標(biāo)文件；

計(jì)算模塊，用于基于每個(gè)分區(qū)的目標(biāo)文件，按照預(yù)設(shè)合并效果模型計(jì)算出每個(gè)分區(qū)的合并效果優(yōu)先級(jí)；其中，所述合并效果優(yōu)先級(jí)與目標(biāo)文件合并后對(duì)HDFS的NameNode內(nèi)存的緩解程度正相關(guān)；

執(zhí)行模塊，用于分別為每個(gè)分區(qū)啟動(dòng)對(duì)應(yīng)的合并任務(wù)，并按照每個(gè)分區(qū)的合并效果優(yōu)先級(jí)，先后執(zhí)行各個(gè)合并任務(wù)，以對(duì)分區(qū)上的目標(biāo)文件進(jìn)行文件合并。

8.根據(jù)權(quán)利要求7所述的文件合并的方法，其特征在于，所述裝置還包括：

驗(yàn)證模塊，用于在將一個(gè)分區(qū)的所有目標(biāo)文件合并為一個(gè)或多個(gè)合并文件之后，將所有合并文件存儲(chǔ)到臨時(shí)目錄下；統(tǒng)計(jì)所述分區(qū)的所有目標(biāo)文件所包含的第一數(shù)據(jù)總條數(shù)，以及統(tǒng)計(jì)所述分區(qū)的所有合并文件所包含的第二數(shù)據(jù)總條數(shù)；判斷所述第一數(shù)據(jù)總條數(shù)與所述第二數(shù)據(jù)總條數(shù)是否一致，若是，則使用所述臨時(shí)目標(biāo)下的合并文件替換所述分區(qū)上的目標(biāo)文件；若否，則刪除所述臨時(shí)目錄下的合并文件。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于奇安信科技集團(tuán)股份有限公司;網(wǎng)神信息技術(shù)（北京）股份有限公司，未經(jīng)奇安信科技集團(tuán)股份有限公司;網(wǎng)神信息技術(shù)（北京）股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911418125.5/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：監(jiān)控方法及相關(guān)產(chǎn)品
下一篇：一種二甲基咪唑的液化方法

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】