[發明專利]一種高效批量接入Tbase數據的方法在審
| 申請號: | 202011598428.2 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112579683A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 何健安;翁莊明;彭本;雷邦寧;張士松 | 申請(專利權)人: | 廣州華資軟件技術有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510665 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高效 批量 接入 tbase 數據 方法 | ||
本發明的目的在于克服現有技術的不足,提供一種能夠快速接入大數據量Tbase數據的方法,解決當前數據入庫Tbase時間長效率慢的問題。為了實現上述的目的,本發明所提供的一種高效批量接入Tbase數據的方法,適用于海量數據采集入庫的場景中,通過對接入數據預處理,批量提交到Tbase中,實現Tbase數據的快速入庫,方法包括:創建Tbase數據庫連接環節;創建批處理對象環節,在每批次數據處理前進行批對象實例化,并進行封裝,提升處理速度;行數據處理環節,對數據進行類型轉換等處理,然后寫入流中進行數據提交;數據進行批處理環節,按批進行數據接入。
技術領域
本發明涉及數據治理中海量數據采集的技術領域,針對騰訊大數據平臺(TBDS)中國產數據庫數據進行批量接入的方法,尤其是指一種高效批量接入Tbase數據的方法。
背景技術
隨著云計算技術和大數據時代的到來,越來越多的政府機構、企業單位開始重視數據背后隱藏的價值,并希望通過對數據價值的利用更好地服務于業務辦理或決策分析。
數據采集和匯聚是重要的一環,針對大數據量和海量數據的接入直接影響到數據治理的效率,特別隨著國產化進程的推進,對國產化數據庫數據的采集效率是面臨的主要難題,當前市面的采集工具和方法存在采集效率低的問題,不能很好的適應海量數據的采集工作,本發明針對騰訊的Tbase數據庫進行適配和技術處理,已達到高效的采集和接入效率,滿足實際業務的使用需求。
發明內容
本發明的目的在于克服現有技術的不足,提供一種能夠快速接入大數據量Tbase數據的方法,解決當前數據入庫Tbase時間長效率慢的問題。
一種高效批量接入Tbase數據的方法,適用于海量數據采集入庫的場景中,通過對接入數據預處理,批量提交到Tbase中,實現Tbase數據的快速入庫,方法包括:步驟1:創建數據庫連接環節,創建Tbase數據庫連接;步驟2:創建批處理對象環節,在每批次數據處理前進行批對象實例化,并進行封裝,提升處理速度;步驟3:行數據處理環節,對數據進行類型轉換等處理,然后寫入流中進行數據提交。步驟4:數據進行批處理環節,按批進行數據接入。
進一步,在所述步驟1中,先通過相關連接信息創建數據庫連接,只需建立一次連接,用以進行后續數據寫入和提交。
進一步,在所述步驟2中,創建批處理對象,在每批次數據處理前進行批對象實例化,并進行封裝,提升處理速度.
進一步,在所述步驟2包括以下步驟:
步驟A1:使用這個數據庫連接實例化一個CopyManager對象。
步驟A2:根據表結構構建相應的Copy語句,并指定來源為FROM STDIN,需要指定使用CSV格式,同時指定分隔符(默認為“,”)與引用符(默認為“”)。
步驟A3:使用A1中步驟實例化的CopyManager對象執行A2步驟的Copy語句,執行成功后將得到一個CopyIn對象。為提升性能,對CopyIn又進行了一層封裝,具體實現方法是使用java.io.BufferedOutputStream做為代理類,來對CopyIn對象進行寫入操作,提升寫入速度。
進一步,在所述步驟3中,行數據處理環節,對數據進行類型轉換等處理,然后寫入流中進行數據提交。
進一步,在步驟3行數據處理環節中主要包括以下步驟:
步驟B1:將一條數據中的數據按它的數據類型轉為相應的byte類型。
步驟B2:對數據用引用符與分隔符進行包裝,利用CopyIn對象的writeToCopy方法寫入流中。
步驟B3:數據寫完后調用CopyIn對象的endCopy方法即可提交數據到庫中,完成插入數據的事務。
進一步,在所述步驟4中,對數據進行批處理,按批進行數據接入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州華資軟件技術有限公司,未經廣州華資軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011598428.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于聲端口的閥
- 下一篇:一種基于Shapelet的雙季稻田遙感識別方法





