[發(fā)明專利]一種CSV文件的批量導(dǎo)入方法和相關(guān)設(shè)備在審
| 申請?zhí)枺?/td> | 202210771645.X | 申請日: | 2022-06-30 |
| 公開(公告)號: | CN115328865A | 公開(公告)日: | 2022-11-11 |
| 發(fā)明(設(shè)計)人: | 梁駿強;熊志強 | 申請(專利權(quán))人: | 深圳市漢云科技有限公司 |
| 主分類號: | G06F16/17 | 分類號: | G06F16/17;G06F16/16;G06F16/172;G06F16/182 |
| 代理公司: | 深圳市特訊知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44653 | 代理人: | 黃彧 |
| 地址: | 518000 廣東省深圳市南山區(qū)西麗*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 csv 文件 批量 導(dǎo)入 方法 相關(guān) 設(shè)備 | ||
本發(fā)明公開了一種CSV文件的批量導(dǎo)入方法和相關(guān)設(shè)備,方法包括:獲取待導(dǎo)入的若干個CSV文件的文件信息;根據(jù)所述文件信息,確定每一個所述CSV文件對應(yīng)的目標(biāo)節(jié)點;以及,根據(jù)所述文件信息,對所述CSV文件進行分組,得到若干個計劃列表;根據(jù)預(yù)設(shè)的遍歷終止規(guī)則,針對每一個所述計劃列表,循環(huán)遍歷該計劃列表中的CSV文件,并當(dāng)遍歷一個所述CSV文件時,將該CSV文件發(fā)送至對應(yīng)的目標(biāo)節(jié)點,直至遍歷結(jié)束,得到與所述CSV文件對應(yīng)的目標(biāo)表。本發(fā)明能夠極大地提高將CSV文件批量導(dǎo)入數(shù)據(jù)庫的速率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種CSV文件的批量導(dǎo)入方法和相關(guān)設(shè)備。
背景技術(shù)
當(dāng)在數(shù)據(jù)庫上應(yīng)用布局部分新項目時,待分析的數(shù)據(jù)集是分布于不同的節(jié)點上的,待分析數(shù)據(jù)集所在的節(jié)點可能存在老舊、異構(gòu)、冷門等問題,而待分析數(shù)據(jù)的數(shù)據(jù)量也可能較大,因此為了方便獲取待分析數(shù)據(jù)集,管理者一般采用批量導(dǎo)出CSV文件的方式。與之相對,項目實施時,需要將批量導(dǎo)出的CSV文件導(dǎo)入至數(shù)據(jù)庫中。
在較高性能的物理服務(wù)器集群上,例如MPP類型的數(shù)據(jù)庫,MPP是將任務(wù)并行的分散到多個服務(wù)器和節(jié)點上,在每個節(jié)點上計算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果。在將CSV文件導(dǎo)入數(shù)據(jù)庫中,需要先讀取并解析CSV數(shù)據(jù)文件,然后將CSV數(shù)據(jù)文件組裝插入到SQL語句中,最后在發(fā)送到項目實施的數(shù)據(jù)庫中。在這種服務(wù)器集群上進行CSV文件的讀取和插入是串行的,因此對磁盤的IO、多核CPU、網(wǎng)絡(luò)等硬件資源的利用率較低,且數(shù)據(jù)量巨大時,在前期的組裝插入SQL語句、解析SQL語句都需要消耗較長的時間,因此這種批量插入CSV的方式效率較低。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于目前批量插入CSV文件的方式效率低下,針對現(xiàn)有技術(shù)的不足,提供一種CSV文件的批量導(dǎo)入方法和相關(guān)設(shè)備。
為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案如下:
一種CSV文件的批量導(dǎo)入方法,所述方法包括:
獲取待導(dǎo)入的若干個CSV文件的文件信息;
根據(jù)所述文件信息,確定每一個所述CSV文件對應(yīng)的目標(biāo)節(jié)點;以及,
根據(jù)所述文件信息,對所述CSV文件進行分組,得到若干個計劃列表;
根據(jù)預(yù)設(shè)的遍歷終止規(guī)則,針對每一個所述計劃列表,循環(huán)遍歷該計劃列表中的CSV文件,并當(dāng)遍歷一個所述CSV文件時,將該CSV文件發(fā)送至對應(yīng)的目標(biāo)節(jié)點,直至遍歷結(jié)束,得到與所述CSV文件對應(yīng)的目標(biāo)表。
所述CSV文件的批量導(dǎo)入方法,其中,所述文件信息包括每一個所述CSV文件的文件大小,所述根據(jù)所述文件信息,確定每一個所述CSV文件對應(yīng)的目標(biāo)節(jié)點包括:
根據(jù)所述文件大小,對所述CSV文件進行排序,得到文件序列表;
根據(jù)所述文件序列表,按照從大到小的順序,依次確定每一個所述CSV文件對應(yīng)的目標(biāo)節(jié)點。
所述CSV文件的批量導(dǎo)入方法,其中,所述文件信息包括各個節(jié)點的磁盤空間,所述根據(jù)所述文件信息,確定每一個所述CSV文件對應(yīng)的目標(biāo)節(jié)點包括:
針對每一個所述CSV文件,根據(jù)所述磁盤空間,確定所述節(jié)點中的候選節(jié)點;
針對每一個所述候選節(jié)點,根據(jù)該候選節(jié)點的磁盤空間和與該候選節(jié)點對應(yīng)的CSV文件的大小,計算該候選節(jié)點對應(yīng)的剩余空間;
根據(jù)所述剩余空間,確定該CSV文件對應(yīng)的目標(biāo)節(jié)點,并對所述目標(biāo)節(jié)點對應(yīng)的磁盤空間進行更新。
所述CSV文件的批量導(dǎo)入方法,其中,所述當(dāng)遍歷一個所述CSV文件時,將該CSV文件發(fā)送至對應(yīng)的目標(biāo)節(jié)點包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市漢云科技有限公司,未經(jīng)深圳市漢云科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210771645.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





