[發(fā)明專利]一種數(shù)據(jù)文件處理方法、裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202210026408.0 | 申請日: | 2022-01-11 |
| 公開(公告)號: | CN114372035A | 公開(公告)日: | 2022-04-19 |
| 發(fā)明(設(shè)計)人: | 譚均昌 | 申請(專利權(quán))人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/16;G06F9/48 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 孫蕾 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)文件 處理 方法 裝置 電子設(shè)備 | ||
本公開提供了一種數(shù)據(jù)文件處理方法,可以應(yīng)用于大數(shù)據(jù)領(lǐng)域。該方法包括:響應(yīng)于導(dǎo)入請求,將與導(dǎo)入請求對應(yīng)的數(shù)據(jù)文件進(jìn)行分布式存儲;根據(jù)數(shù)據(jù)文件的屬性信息,利用調(diào)度服務(wù)器對數(shù)據(jù)文件進(jìn)行分片定義;根據(jù)分片定義和配置校驗規(guī)則,利用分布式協(xié)同服務(wù)調(diào)度處理服務(wù)器對數(shù)據(jù)文件進(jìn)行分片處理,獲得分片處理結(jié)果;利用調(diào)度服務(wù)器對分片處理結(jié)果進(jìn)行驗證,根據(jù)驗證結(jié)果,利用分布式協(xié)同服務(wù)調(diào)度處理服務(wù)器對數(shù)據(jù)文件進(jìn)行分片導(dǎo)入處理。本公開還提供了一種數(shù)據(jù)文件處理裝置、設(shè)備、存儲介質(zhì)和程序產(chǎn)品。
技術(shù)領(lǐng)域
本公開涉及大數(shù)據(jù)技術(shù)領(lǐng)域,具體涉及大數(shù)據(jù)文件的處理,更具體地涉及一種數(shù)據(jù)文件處理方法、裝置、設(shè)備、介質(zhì)和程序產(chǎn)品。
背景技術(shù)
在現(xiàn)有技術(shù)中,對數(shù)據(jù)文件處理尤其是涉及大數(shù)據(jù)量文件導(dǎo)入到系統(tǒng)或服務(wù)器的處理,存在諸如內(nèi)存消耗高、系統(tǒng)頻繁回收垃圾等問題,例如將大數(shù)據(jù)量的Excel文件并發(fā)導(dǎo)入到系統(tǒng)中時,會產(chǎn)生內(nèi)存溢出問題,影響系統(tǒng)性能,從而導(dǎo)致導(dǎo)入時間較長,無法滿足用戶快速導(dǎo)入的需求。
發(fā)明內(nèi)容
鑒于上述問題,本公開提供了提高數(shù)據(jù)文件導(dǎo)入效率的數(shù)據(jù)文件處理方法、裝置、設(shè)備、介質(zhì)和程序產(chǎn)品。
根據(jù)本公開的第一個方面,提供了一種數(shù)據(jù)文件處理方法,包括:
響應(yīng)于導(dǎo)入請求,將與導(dǎo)入請求對應(yīng)的數(shù)據(jù)文件進(jìn)行分布式存儲;
根據(jù)數(shù)據(jù)文件的屬性信息,利用調(diào)度服務(wù)器對數(shù)據(jù)文件進(jìn)行分片定義;
根據(jù)分片定義和配置校驗規(guī)則,利用分布式協(xié)同服務(wù)調(diào)度處理服務(wù)器對數(shù)據(jù)文件進(jìn)行分片處理,獲得分片處理結(jié)果;
利用調(diào)度服務(wù)器對分片處理結(jié)果進(jìn)行驗證,根據(jù)驗證結(jié)果,利用分布式協(xié)同服務(wù)調(diào)度處理服務(wù)器對數(shù)據(jù)文件進(jìn)行分片導(dǎo)入處理。
根據(jù)本公開的實施例,上述響應(yīng)于導(dǎo)入請求,將與導(dǎo)入請求對應(yīng)的數(shù)據(jù)文件進(jìn)行分布式存儲包括:
獲取數(shù)據(jù)文件的表頭配置信息;
根據(jù)表頭配置信息,利用應(yīng)用服務(wù)器對數(shù)據(jù)文件進(jìn)行表頭校驗,并將表頭校驗通過后的數(shù)據(jù)文件存儲在分布式文件系統(tǒng)中;
利用應(yīng)用服務(wù)器將導(dǎo)入請求登記到任務(wù)隊列中,并將登記處理結(jié)果反饋給用戶終端。
根據(jù)本公開的實施例,將與導(dǎo)入請求對應(yīng)的數(shù)據(jù)文件進(jìn)行分布式存儲還包括:
根據(jù)任務(wù)隊列,利用調(diào)度服務(wù)器獲取處理任務(wù)和用戶配置需求;
根據(jù)處理任務(wù)和用戶配置需求,利用分布式協(xié)同服務(wù)調(diào)度處理服務(wù)器對原始表進(jìn)行初始化處理,其中,原始表用于存儲待導(dǎo)入的數(shù)據(jù)文件。
根據(jù)本公開的實施例,上述配置校驗規(guī)則包括:非空校驗、數(shù)據(jù)長度校驗、數(shù)據(jù)類型校驗、數(shù)據(jù)字典校驗、字段間規(guī)則校驗、行間規(guī)則校驗。
根據(jù)本公開的實施例,上述分片定義包括:
根據(jù)數(shù)據(jù)文件的屬性信息,選定數(shù)據(jù)文件的至少一列作為分片列;
根據(jù)分片列的數(shù)據(jù)值域,對數(shù)據(jù)文件進(jìn)行平均分片,并獲取每個分片結(jié)果所包括的數(shù)據(jù)量;
當(dāng)數(shù)據(jù)量小于數(shù)據(jù)量閾值時,完成分片定義。
根據(jù)本公開的實施例,上述分片定義還包括:
當(dāng)數(shù)據(jù)量大于數(shù)據(jù)量閾值時,利用調(diào)度服務(wù)執(zhí)行再分片定義,直到分片結(jié)果所包括的數(shù)據(jù)量小于數(shù)據(jù)量閾值。
根據(jù)本公開的實施例,上述分片處理包括:
根據(jù)分片定義和配置校驗規(guī)則,利用分布式協(xié)同服務(wù)調(diào)度處理服務(wù)器獲取每個分片的數(shù)據(jù)量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國工商銀行股份有限公司,未經(jīng)中國工商銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210026408.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 嵌入式數(shù)據(jù)庫中數(shù)據(jù)恢復(fù)的方法和裝置
- 一種上報、獲得性能數(shù)據(jù)文件的方法及裝置
- 一種數(shù)據(jù)文件處理的方法、裝置及終端
- 一種數(shù)據(jù)文件播放方法及相關(guān)設(shè)備、系統(tǒng)
- 一種數(shù)據(jù)文件檢測方法和裝置
- 數(shù)據(jù)綜合采集方法及系統(tǒng)
- 一種多類型批量數(shù)據(jù)處理系統(tǒng)及其處理方法
- 數(shù)據(jù)文件的處理方法、裝置、系統(tǒng)和存儲介質(zhì)
- 嵌入式系統(tǒng)中文件數(shù)據(jù)未同步的檢測方法
- 數(shù)據(jù)操作方法、裝置和計算機(jī)可讀存儲介質(zhì)





