[發(fā)明專利]一種NiFi同步數(shù)據(jù)量統(tǒng)計方法有效
| 申請?zhí)枺?/td> | 202110001764.2 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112732662B | 公開(公告)日: | 2023-03-28 |
| 發(fā)明(設計)人: | 翟建峰;胡清;李國濤 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06F16/178 | 分類號: | G06F16/178;G06F16/16 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 郗艷榮 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 nifi 同步 數(shù)據(jù)量 統(tǒng)計 方法 | ||
本發(fā)明特別涉及一種NiFi同步數(shù)據(jù)量統(tǒng)計方法。該NiFi同步數(shù)據(jù)量統(tǒng)計方法,基于NiFi數(shù)據(jù)文件批次標識,數(shù)據(jù)文件編碼以及數(shù)據(jù)文件數(shù)據(jù)量標識屬性實現(xiàn)對同步數(shù)量的統(tǒng)計。該NiFi同步數(shù)據(jù)量統(tǒng)計方法,不僅能夠在使用NiFi進行大數(shù)據(jù)量數(shù)據(jù)同步操作時對同步數(shù)據(jù)量進行統(tǒng)計,而且易于實現(xiàn),開發(fā)成本低,靈活多樣,具有很高的可擴展性,具有廣泛的適用場景,適于推廣應用。
技術領域
本發(fā)明涉及數(shù)據(jù)統(tǒng)計技術領域,特別涉及一種NiFi同步數(shù)據(jù)量統(tǒng)計方法。
背景技術
現(xiàn)代社會是一個高速發(fā)展的社會,科技發(fā)達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。大數(shù)據(jù)是如此重要,以至于其數(shù)據(jù)采集、儲存、搜索、共享、分析,乃至可視化地呈現(xiàn),都成為了當前重要的研究課題,而數(shù)據(jù)采集是一切大數(shù)據(jù)應用的開始和前提。
在很多項目開發(fā)和實施過程中,客戶與研發(fā)人員開始往往更關注數(shù)據(jù)的治理、挖掘與分析應用等,但在隨著項目的實施,技術人員發(fā)現(xiàn)數(shù)據(jù)采集才是最大的難點和最耗時耗力的工作。能夠及時、快速、準確、完整的將外部數(shù)據(jù)抽取到大數(shù)據(jù)平臺是很多開發(fā)人員面臨的難題。
基于此,本發(fā)明提出了一種NiFi同步數(shù)據(jù)量統(tǒng)計方法。
發(fā)明內(nèi)容
本發(fā)明為了彌補現(xiàn)有技術的缺陷,提供了一種簡單高效的NiFi同步數(shù)據(jù)量統(tǒng)計方法。
本發(fā)明是通過如下技術方案實現(xiàn)的:
一種NiFi同步數(shù)據(jù)量統(tǒng)計方法,其特征在于:基于NiFi數(shù)據(jù)文件批次標識,數(shù)據(jù)文件編碼以及數(shù)據(jù)文件數(shù)據(jù)量標識屬性實現(xiàn)對同步數(shù)量的統(tǒng)計;
具體包括以下步驟:
第一步,生成NiFi數(shù)據(jù)文件批次標識;
第二步,對數(shù)據(jù)文件進行編碼,并生成數(shù)據(jù)文件數(shù)據(jù)量標識屬性;
第三步,將數(shù)據(jù)文件進行分塊處理
當數(shù)據(jù)進入到NiFi集群后存在數(shù)據(jù)處理場景(比如過濾空值,行列拆分等)時,在數(shù)據(jù)處理過程中將一個帶有current.index變量的數(shù)據(jù)文件拆分成多個數(shù)據(jù)文件;
第四步,將數(shù)據(jù)文件進行重新排序;
第五步,數(shù)據(jù)入庫
根據(jù)數(shù)據(jù)類型和目標庫不同,選用不同的數(shù)據(jù)加載組件,對數(shù)據(jù)進行加載;
第六步,數(shù)據(jù)完整性判斷及數(shù)據(jù)量統(tǒng)計
判斷同一批次的所有數(shù)據(jù)文件是否全部接收完畢,若全部接收完畢,則統(tǒng)計數(shù)據(jù)該批次同步數(shù)據(jù)文件的數(shù)量。
所述第一步中,通過StartFlow(起始流動節(jié)點)組件來生成NiFi數(shù)據(jù)文件批次標識;所述NiFi數(shù)據(jù)文件批次標識對應的數(shù)據(jù)文件屬性為flowFlag(流動標志),相同的批次標識對應同一個批次的NiFi數(shù)據(jù)文件。
所述第二步中,具體獲取數(shù)據(jù)的組件對每個批次的所有數(shù)據(jù)文件都進行編碼,并將每個數(shù)據(jù)文件都增加current.index和next.index屬性,從而生成數(shù)據(jù)文件序號標識,用于標識數(shù)據(jù)文件的順序,以便在多線程并發(fā)處理后重新排序。
所述第二步中,根據(jù)數(shù)據(jù)的類別不同添加不同的屬性,生成所述數(shù)據(jù)文件數(shù)據(jù)量標識屬性,用于標識數(shù)據(jù)文件中數(shù)據(jù)的量。
數(shù)據(jù)量結構化數(shù)據(jù)添加resultCount屬性,二進制數(shù)據(jù),如文件,則添加file.size屬性。
所述第三步中,在數(shù)據(jù)文件中增加拆分序號標識FragmentNumber(分塊序號)和NextFragmentNumber(下一個分塊序號),并更新數(shù)據(jù)文件FlowFile(數(shù)據(jù)文件)的數(shù)據(jù)量標識屬性resultCount。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經(jīng)浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110001764.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種ApacheNiFi在源數(shù)據(jù)錄入數(shù)據(jù)庫方面的擴展應用方法和系統(tǒng)
- 一種基于NiFi的大數(shù)據(jù)計算方法及裝置
- 一種基于NiFi的數(shù)據(jù)采集方法
- 一種數(shù)據(jù)處理方法、裝置、設備及介質(zhì)
- 一種用于NIFI任務的分布式監(jiān)控系統(tǒng)及方法
- 一種基于NiFi的大數(shù)據(jù)量非結構文件采集方法及系統(tǒng)
- 基于NiFi的數(shù)據(jù)處理方法和裝置
- 一種基于分布式架構的空間數(shù)據(jù)轉換方法
- 一種NiFi同步數(shù)據(jù)量統(tǒng)計方法
- 一種基于NiFi更新Delta Lake的方法
- 統(tǒng)計系統(tǒng)、統(tǒng)計裝置和統(tǒng)計方法
- 人數(shù)統(tǒng)計方法和人數(shù)統(tǒng)計系統(tǒng)
- 統(tǒng)計物體數(shù)量的統(tǒng)計系統(tǒng)
- 網(wǎng)絡處理器的統(tǒng)計計數(shù)方法
- 統(tǒng)計信息上報方法及裝置
- 稿件統(tǒng)計方法和稿件統(tǒng)計系統(tǒng)
- 數(shù)據(jù)統(tǒng)計方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計狀態(tài)的方法及裝置
- 信息統(tǒng)計方法和信息統(tǒng)計裝置
- 電量統(tǒng)計系統(tǒng)及電量統(tǒng)計方法





