[發(fā)明專利]大數(shù)據(jù)文件的文件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202210594346.3 | 申請(qǐng)日: | 2022-05-27 |
| 公開(公告)號(hào): | CN114925023A | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計(jì))人: | 崔海春 | 申請(qǐng)(專利權(quán))人: | 中國(guó)銀行股份有限公司 |
| 主分類號(hào): | G06F16/13 | 分類號(hào): | G06F16/13;G06F16/215;G06F16/22 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 薛平;劉飛 |
| 地址: | 100818 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)文件 文件 處理 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本說(shuō)明書涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,提供了一種大數(shù)據(jù)文件的文件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),該方法包括:解壓上游系統(tǒng)提供的數(shù)據(jù)文件;調(diào)用AWK工具對(duì)解壓后的數(shù)據(jù)文件中的非目標(biāo)字段進(jìn)行濾除;將濾除非目標(biāo)字段后的數(shù)據(jù)文件進(jìn)行分類,得到每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合;對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,以主鍵為基礎(chǔ)將其拆分并落入多個(gè)子表中。本說(shuō)明書實(shí)施例可以提高大數(shù)據(jù)文件的文件處理效率。
技術(shù)領(lǐng)域
本說(shuō)明書涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其是涉及一種大數(shù)據(jù)文件的文件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
一些業(yè)務(wù)系統(tǒng)需要接收來(lái)自多個(gè)上游系統(tǒng)提供的數(shù)據(jù)文件。這些數(shù)據(jù)規(guī)模巨大,少則幾千萬(wàn),多則上億,在使用這些數(shù)據(jù)前需要耗費(fèi)大量的時(shí)間將其導(dǎo)入數(shù)據(jù)庫(kù),由于數(shù)據(jù)量巨大,在使用過(guò)程中對(duì)數(shù)據(jù)庫(kù)造成較大壓力。因此,如何高效處理大數(shù)據(jù)文件已成為目前亟待解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本說(shuō)明書實(shí)施例的目的在于提供一種大數(shù)據(jù)文件的文件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以提高大數(shù)據(jù)文件的文件處理效率。
為達(dá)到上述目的,一方面,本說(shuō)明書實(shí)施例提供了一種大數(shù)據(jù)文件的文件處理方法,包括:
解壓上游系統(tǒng)提供的數(shù)據(jù)文件;
調(diào)用AWK工具對(duì)解壓后的數(shù)據(jù)文件中的非目標(biāo)字段進(jìn)行濾除;
將濾除非目標(biāo)字段后的數(shù)據(jù)文件進(jìn)行分類,得到每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合;
對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,以主鍵為基礎(chǔ)將其拆分并落入多個(gè)子表中。
本說(shuō)明書實(shí)施例的大數(shù)據(jù)文件的文件處理方法中,所述調(diào)用AWK工具對(duì)解壓后的數(shù)據(jù)文件中的非目標(biāo)字段進(jìn)行濾除,包括:
調(diào)用AWK工具中定義的過(guò)濾條件腳本,過(guò)濾掉解壓后的數(shù)據(jù)文件中的非目標(biāo)字段。
本說(shuō)明書實(shí)施例的大數(shù)據(jù)文件的文件處理方法中,在所述調(diào)用AWK工具對(duì)解壓后的數(shù)據(jù)文件中的非目標(biāo)字段進(jìn)行濾除之前,還包括:
調(diào)用AWK工具中定義的校驗(yàn)?zāi)_本,對(duì)濾除解壓后的數(shù)據(jù)文件進(jìn)行非空校驗(yàn)、長(zhǎng)度校驗(yàn)和非法字符校驗(yàn);
當(dāng)解壓后的數(shù)據(jù)文件未通過(guò)校驗(yàn)時(shí),將該數(shù)據(jù)文件存入指定路徑并拋出異常。
本說(shuō)明書實(shí)施例的大數(shù)據(jù)文件的文件處理方法中,所述主鍵包括用戶標(biāo)識(shí),所述對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,以主鍵為基礎(chǔ)將其拆分并落入多個(gè)子表中,包括:
從當(dāng)前類文件類型的數(shù)據(jù)文件集合中取出一個(gè)數(shù)據(jù)文件;
判斷該數(shù)據(jù)文件的主鍵是否為十進(jìn)制數(shù)字;
如果該數(shù)據(jù)文件的主鍵為十進(jìn)制數(shù)字,則根據(jù)公式d=(m%(n*10))/10計(jì)算該數(shù)據(jù)文件中每條記錄所歸屬的分庫(kù);
根據(jù)公式t=(m%(n*10))%10計(jì)算該數(shù)據(jù)文件中每條記錄在對(duì)應(yīng)分庫(kù)中所歸屬的分表;
將該數(shù)據(jù)文件的記錄存入指定臨時(shí)文件目錄;
當(dāng)所述指定臨時(shí)文件目錄中的記錄滿足批量入庫(kù)條件時(shí),將所述指定臨時(shí)文件目錄中的記錄批量寫入對(duì)應(yīng)的分庫(kù)分表中;
其中,d為數(shù)據(jù)文件中每條記錄所歸屬的分庫(kù)標(biāo)識(shí),t為數(shù)據(jù)文件中每條記錄在對(duì)應(yīng)分庫(kù)中所歸屬的分表,m為數(shù)據(jù)文件中每條記錄的用戶標(biāo)識(shí),n為每類文件類型的分庫(kù)總數(shù),*表示相乘,%表示取模。
本說(shuō)明書實(shí)施例的大數(shù)據(jù)文件的文件處理方法中,所述對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,以主鍵為基礎(chǔ)將其拆分并落入多個(gè)子表中,還包括:
對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,當(dāng)其內(nèi)數(shù)據(jù)文件的主鍵不是十進(jìn)制數(shù)字時(shí),在進(jìn)行分庫(kù)分表前先將其主鍵轉(zhuǎn)換為十進(jìn)制數(shù)字。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)銀行股份有限公司,未經(jīng)中國(guó)銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210594346.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 嵌入式數(shù)據(jù)庫(kù)中數(shù)據(jù)恢復(fù)的方法和裝置
- 一種上報(bào)、獲得性能數(shù)據(jù)文件的方法及裝置
- 一種數(shù)據(jù)文件處理的方法、裝置及終端
- 一種數(shù)據(jù)文件播放方法及相關(guān)設(shè)備、系統(tǒng)
- 一種數(shù)據(jù)文件檢測(cè)方法和裝置
- 數(shù)據(jù)綜合采集方法及系統(tǒng)
- 一種多類型批量數(shù)據(jù)處理系統(tǒng)及其處理方法
- 數(shù)據(jù)文件的處理方法、裝置、系統(tǒng)和存儲(chǔ)介質(zhì)
- 嵌入式系統(tǒng)中文件數(shù)據(jù)未同步的檢測(cè)方法
- 數(shù)據(jù)操作方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





