[發明專利]一種基于Flink實時計算的自動化流控制方法在審

申請號：	202011594886.9	申請日：	2020-12-29
公開（公告）號：	CN112596997A	公開（公告）日：	2021-04-02
發明（設計）人：	陳思恩	申請（專利權）人：	科技谷（廈門）信息技術有限公司
主分類號：	G06F11/34	分類號：	G06F11/34;G06F16/18
代理公司：	廈門致群財富專利代理事務所(普通合伙) 35224	代理人：	劉兆慶;鄧貴琴
地址：	361000 福建省廈***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 flink 實時計算自動化控制方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于Flink實時計算的自動化流控制方法，包括以下步驟：S1、對業務系統的日志數據進行實時采集；S2、利用Kafka隊列對采集的日志數據進行傳輸，其中不同的業務日志數據作為一個單獨的topic數據流；S3、使用Flink的各種算子組合對數據流進行實時解析和對數據流解析進行實時控制；S4、將解析出的數據流進行存儲。本發明提供一種基于Flink實時計算的自動化流控制方法，利用Flink的并行性和內存效率，以便能夠在分布式基礎設施上有效地處理大容量數據流，根據不同的需求將解析的數據輸出到相應的存儲空間，靈活地適配各種日志格式，從而減少同類解析代碼的開發，將不同的數據解析進行集中式的管理，有效地提高了現在Flink框架集群的吞吐量。

技術領域

本發明涉及數據處理技術領域，具體涉及一種基于Flink實時計算的自動化流控制方法。

背景技術

由于Flink框架的優勢，現在有很多關于Flink應用的相關研究。Flink的概念、生態系統和相關技術等理論基礎并對Hadoop和Flink在處理大批量數據上的耗時和準確率進行了對比分析，針對不同的流式處理平臺，分析總結了Flink所面臨的一些挑戰，為Flink的進一步研究提供了參考。基于Flink的計算框架，設計了對大規模軌跡數據進行實時運動模式檢測的算法，彌補了對于當前大規模軌跡數據只能做范圍查詢、近鄰查詢的簡單處理的不足，很好地應用了Flink實時計算的優勢。

隨著業務越來越復雜，需要采集和存儲的數據越來越多，由于存在著不同的業務系統，日志的存儲格式多種多樣，如何靈活快速根據不同的需求將解析的數據輸出到相應的存儲空間的問題迫在眉睫。

發明內容

本發明提出一種基于Flink實時計算的自動化流控制方法，利用Flink的并行性和內存效率，以便能夠在分布式基礎設施上有效地處理大容量數據流，根據不同的需求將解析的數據輸出到相應的存儲空間，靈活地適配各種日志格式，從而減少同類解析代碼的開發，將不同的數據解析進行集中式的管理，有效地提高了現在Flink框架集群的吞吐量。

為實現上述目的，本發明采用以下技術方案：

一種基于Flink實時計算的自動化流控制方法，包括以下步驟：

S1、對業務系統的日志數據進行實時采集；

S2、利用Kafka隊列對采集的日志數據進行傳輸，其中不同的業務日志數據作為一個單獨的topic數據流；

S3、使用Flink的各種算子組合對數據流進行實時解析和對數據流解析進行實時控制；

S4、將解析出的數據流進行存儲。

優選地，步驟S1中采用Filebeat采集工具，所述Filebeat采集工具包括Apache模塊、System模塊及MySQL模塊。

優選地，步驟S2中Kafka隊列還包括一用于進行流控制的空流。

優選地，步驟S3中數據流解析的步驟包括：

A1、將每個要處理的數據流的名稱通過哈希圖譜進行存儲，假設＜主鍵，數值＞＝＜stream1，datastream1＞，同時將需要對數據流處理的算子存儲到鏈表中；

A2、按照對datastream1的流處理算子得到流處理結果dataset1；

A3、更新哈希圖譜中stream1的數值為dataset1；