[發(fā)明專利]大數(shù)據(jù)文件的文件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202210594346.3 | 申請(qǐng)日: | 2022-05-27 |
| 公開(公告)號(hào): | CN114925023A | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計(jì))人: | 崔海春 | 申請(qǐng)(專利權(quán))人: | 中國(guó)銀行股份有限公司 |
| 主分類號(hào): | G06F16/13 | 分類號(hào): | G06F16/13;G06F16/215;G06F16/22 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 薛平;劉飛 |
| 地址: | 100818 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)文件 文件 處理 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種大數(shù)據(jù)文件的文件處理方法,其特征在于,包括:
解壓上游系統(tǒng)提供的數(shù)據(jù)文件;
調(diào)用AWK工具對(duì)解壓后的數(shù)據(jù)文件中的非目標(biāo)字段進(jìn)行濾除;
將濾除非目標(biāo)字段后的數(shù)據(jù)文件進(jìn)行分類,得到每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合;
對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,以主鍵為基礎(chǔ)將其拆分并落入多個(gè)子表中。
2.如權(quán)利要求1所述的大數(shù)據(jù)文件的文件處理方法,其特征在于,所述調(diào)用AWK工具對(duì)解壓后的數(shù)據(jù)文件中的非目標(biāo)字段進(jìn)行濾除,包括:
調(diào)用AWK工具中定義的過濾條件腳本,過濾掉解壓后的數(shù)據(jù)文件中的非目標(biāo)字段。
3.如權(quán)利要求1所述的大數(shù)據(jù)文件的文件處理方法,其特征在于,在所述調(diào)用AWK工具對(duì)解壓后的數(shù)據(jù)文件中的非目標(biāo)字段進(jìn)行濾除之前,還包括:
調(diào)用AWK工具中定義的校驗(yàn)?zāi)_本,對(duì)濾除解壓后的數(shù)據(jù)文件進(jìn)行非空校驗(yàn)、長(zhǎng)度校驗(yàn)和非法字符校驗(yàn);
當(dāng)解壓后的數(shù)據(jù)文件未通過校驗(yàn)時(shí),將該數(shù)據(jù)文件存入指定路徑并拋出異常。
4.如權(quán)利要求1所述的大數(shù)據(jù)文件的文件處理方法,其特征在于,所述主鍵包括用戶標(biāo)識(shí),所述對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,以主鍵為基礎(chǔ)將其拆分并落入多個(gè)子表中,包括:
從當(dāng)前類文件類型的數(shù)據(jù)文件集合中取出一個(gè)數(shù)據(jù)文件;
判斷該數(shù)據(jù)文件的主鍵是否為十進(jìn)制數(shù)字;
如果該數(shù)據(jù)文件的主鍵為十進(jìn)制數(shù)字,則根據(jù)公式d=(m%(n*10))/10計(jì)算該數(shù)據(jù)文件中每條記錄所歸屬的分庫(kù);
根據(jù)公式t=(m%(n*10))%10計(jì)算該數(shù)據(jù)文件中每條記錄在對(duì)應(yīng)分庫(kù)中所歸屬的分表;
將該數(shù)據(jù)文件的記錄存入指定臨時(shí)文件目錄;
當(dāng)所述指定臨時(shí)文件目錄中的記錄滿足批量入庫(kù)條件時(shí),將所述指定臨時(shí)文件目錄中的記錄批量寫入對(duì)應(yīng)的分庫(kù)分表中;
其中,d為數(shù)據(jù)文件中每條記錄所歸屬的分庫(kù)標(biāo)識(shí),t為數(shù)據(jù)文件中每條記錄在對(duì)應(yīng)分庫(kù)中所歸屬的分表,m為數(shù)據(jù)文件中每條記錄的用戶標(biāo)識(shí),n為每類文件類型的分庫(kù)總數(shù),*表示相乘,%表示取模。
5.如權(quán)利要求4所述的大數(shù)據(jù)文件的文件處理方法,其特征在于,所述對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,以主鍵為基礎(chǔ)將其拆分并落入多個(gè)子表中,還包括:
對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,當(dāng)其內(nèi)數(shù)據(jù)文件的主鍵不是十進(jìn)制數(shù)字時(shí),在進(jìn)行分庫(kù)分表前先將其主鍵轉(zhuǎn)換為十進(jìn)制數(shù)字。
6.如權(quán)利要求4所述的大數(shù)據(jù)文件的文件處理方法,其特征在于,在將所述指定臨時(shí)文件目錄中的記錄批量寫入對(duì)應(yīng)的分庫(kù)分表中之前,還包括:
對(duì)所述指定臨時(shí)文件目錄中的記錄進(jìn)行校驗(yàn);
當(dāng)所述指定臨時(shí)文件目錄中的記錄通過校驗(yàn)時(shí),觸發(fā)將所述指定臨時(shí)文件目錄中的記錄批量寫入對(duì)應(yīng)的分庫(kù)分表中的操作。
7.一種大數(shù)據(jù)文件的文件處理裝置,其特征在于,包括:
解壓模塊,用于解壓上游系統(tǒng)提供的數(shù)據(jù)文件;
調(diào)用模塊,用于調(diào)用AWK工具對(duì)解壓后的數(shù)據(jù)文件中的非目標(biāo)字段進(jìn)行濾除;
分類模塊,用于將濾除非目標(biāo)字段后的數(shù)據(jù)文件進(jìn)行分類,得到每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合;
入庫(kù)模塊,用于對(duì)于每類文件類型對(duì)應(yīng)的數(shù)據(jù)文件集合,以主鍵為基礎(chǔ)將其拆分并落入多個(gè)子表中。
8.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器、以及存儲(chǔ)在所述存儲(chǔ)器上的計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被所述處理器運(yùn)行時(shí),執(zhí)行根據(jù)權(quán)利要求1-6任意一項(xiàng)所述方法的指令。
9.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被計(jì)算機(jī)設(shè)備的處理器運(yùn)行時(shí),執(zhí)行根據(jù)權(quán)利要求1-6任意一項(xiàng)所述方法的指令。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí),執(zhí)行根據(jù)權(quán)利要求1-6任意一項(xiàng)所述方法的指令。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)銀行股份有限公司,未經(jīng)中國(guó)銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210594346.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 嵌入式數(shù)據(jù)庫(kù)中數(shù)據(jù)恢復(fù)的方法和裝置
- 一種上報(bào)、獲得性能數(shù)據(jù)文件的方法及裝置
- 一種數(shù)據(jù)文件處理的方法、裝置及終端
- 一種數(shù)據(jù)文件播放方法及相關(guān)設(shè)備、系統(tǒng)
- 一種數(shù)據(jù)文件檢測(cè)方法和裝置
- 數(shù)據(jù)綜合采集方法及系統(tǒng)
- 一種多類型批量數(shù)據(jù)處理系統(tǒng)及其處理方法
- 數(shù)據(jù)文件的處理方法、裝置、系統(tǒng)和存儲(chǔ)介質(zhì)
- 嵌入式系統(tǒng)中文件數(shù)據(jù)未同步的檢測(cè)方法
- 數(shù)據(jù)操作方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





