[發(fā)明專利]一種大文件數(shù)據(jù)導(dǎo)入方法在審
| 申請?zhí)枺?/td> | 202010779789.0 | 申請日: | 2020-08-05 |
| 公開(公告)號: | CN111897772A | 公開(公告)日: | 2020-11-06 |
| 發(fā)明(設(shè)計)人: | 趙強 | 申請(專利權(quán))人: | 光大興隴信托有限責(zé)任公司 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06F16/188;G06F16/22;G06F16/25 |
| 代理公司: | 北京中和立達知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11756 | 代理人: | 祝妍 |
| 地址: | 730030 甘肅*** | 國省代碼: | 甘肅;62 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文件 數(shù)據(jù) 導(dǎo)入 方法 | ||
本發(fā)明涉及一種大文件數(shù)據(jù)導(dǎo)入方法,所述方法包括:步驟S1:大文件讀取配置;步驟S2:大文件自動導(dǎo)入;如通過執(zhí)行文件腳本解析外擎導(dǎo)入;步驟S3:異常情況補償和大虛擬大文件實體化。本發(fā)明能夠支持多個導(dǎo)入源,并基于導(dǎo)入源的不同來適應(yīng)性的進行的大文件導(dǎo)入控制,根據(jù)導(dǎo)入源進行分布式和集中控制結(jié)合的文件導(dǎo)入方式;能夠?qū)崿F(xiàn)文件在讀取過程中的組合,并且去除了平臺特性。本發(fā)明兼容性強、導(dǎo)入速度快、所需要的CPU資源和存儲空間小。
【技術(shù)領(lǐng)域】
本發(fā)明屬于數(shù)據(jù)庫技術(shù)領(lǐng)域,尤其涉及一種大文件數(shù)據(jù)導(dǎo)入方法。
【背景技術(shù)】
大批量數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫是項目開發(fā)中的一道難題,企業(yè)應(yīng)用中針對上述場景常用技術(shù)是采用JDBC技術(shù)將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫。優(yōu)點是不依賴第三方SDK,通過網(wǎng)絡(luò)技術(shù)傳輸數(shù)據(jù),結(jié)合標準SQL語句可以靈活進行數(shù)據(jù)邏輯的控制,但這種開發(fā)模式只適合常規(guī)的業(yè)務(wù)交互,對于需要快速將平面文件(如通過|分隔文本)持久化的需求,JDBC的性能和穩(wěn)定性無法滿足要求。oracle的數(shù)據(jù)泵和通用ETL工具過于通用,定制化相對較差,不太滿足有特定業(yè)務(wù)處理邏輯的平面文件的數(shù)據(jù)處理。現(xiàn)有技術(shù)中針對大文件導(dǎo)入不支持存在多個源路徑的大文件導(dǎo)入方式;導(dǎo)入兼容性差,導(dǎo)入時間長。本發(fā)明能夠支持多個導(dǎo)入源,如通過自行設(shè)計的C語言文件解析引擎解析平面文件,并基于導(dǎo)入源的不同來適應(yīng)性的進行的大文件導(dǎo)入控制,根據(jù)導(dǎo)入源進行分布式和集中控制結(jié)合的文件導(dǎo)入方式;能夠?qū)崿F(xiàn)文件在讀取過程中的組合,并且去除了平臺特性。提出虛擬大文件的概念來加快大文件的導(dǎo)入速度,根據(jù)訪問情況來權(quán)衡虛擬化大文件的實體化時機;通過配置文件摘要信息的計算進行導(dǎo)入控制,避免可能發(fā)生的導(dǎo)入異常;通過兼容性的分級,使得能夠盡可能進行大文件和子文件之間的數(shù)據(jù)兼容,并通過預(yù)先進行數(shù)據(jù)類型轉(zhuǎn)換使得該兼容操作對用戶是透明的。
【發(fā)明內(nèi)容】
為了解決現(xiàn)有技術(shù)中的上述問題,本發(fā)明提出了一種大文件數(shù)據(jù)導(dǎo)入方法,所述方法包含:
步驟S1:大文件讀取配置;
步驟S2:大文件自動導(dǎo)入;
步驟S3:異常情況補償和大虛擬大文件實體化。
進一步的,所述步驟S1具體為:通過控制臺統(tǒng)一配置節(jié)點需讀取的文件解析腳本、大文件路徑、文件類型信息。
進一步的,用戶通過個人終端登錄控制臺,通過控制臺訪問配置節(jié)點以進行大文件讀取配置和解析;控制臺通過應(yīng)用程序或者網(wǎng)頁的形式設(shè)置于個人終端。其中:控制臺可以使用終端仿真程序或網(wǎng)頁內(nèi)置仿真程序操作。
進一步的,所述配置節(jié)點將配置信息保存為配置文件;配置文件中包含大文件目的路徑及其文件類型、源大文件所包含按順序排列的子文件路徑及其子文件類型信息。
進一步的,所述配置節(jié)點設(shè)置于第三方服務(wù)器,主要用于實現(xiàn)配置信息的功能。
進一步的,所述配置節(jié)點為本地服務(wù)器,用于對本地服務(wù)器所在的本地網(wǎng)絡(luò)范圍內(nèi)的個人終端提供配置服務(wù)。
進一步的,所述步驟S2具體為:根據(jù)配置文件進行大文件數(shù)據(jù)讀取并完成數(shù)據(jù)庫導(dǎo)入;本發(fā)明在配置節(jié)點中為采用分布式控制,而是根據(jù)配置文件的具體情況,結(jié)合導(dǎo)入路徑中心的不同而借鑒分布式思想進行非集中的控制。
進一步的,所述步驟S3具體為:讀取寫入的日志,并支持對寫入異常的文件進行重新寫入等補償操作。
進一步的,步驟S3還包括:根據(jù)虛擬大文件的訪問情況進行虛擬大文件的實體化。
進一步的,定期對虛擬大文件所涉及的所有子文件路徑進行遍歷,如果子文件的修改時間晚于大文件的遍歷時間,則基于子文件信息對大文件頭進行修改。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于光大興隴信托有限責(zé)任公司,未經(jīng)光大興隴信托有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010779789.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





