[發明專利]一種流數據處理的方法及裝置在審

申請號：	202010131762.0	申請日：	2020-02-29
公開（公告）號：	CN111367951A	公開（公告）日：	2020-07-03
發明（設計）人：	康雪丹;姜黎明;王大飛;江旻	申請（專利權）人：	深圳前海微眾銀行股份有限公司
主分類號：	G06F16/2455	分類號：	G06F16/2455;G06F16/2458
代理公司：	北京同達信恒知識產權代理有限公司 11291	代理人：	侯林林
地址：	518027 廣東省深圳市***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種數據處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種流數據處理的方法及裝置，方法包括：從監測的流數據中獲取符合篩選規則的各類業務數據，針對每類業務數據，按照業務數據的預設結構對業務數據進行提取，得到設定緯度的業務數據，按照預設的分組規則，對各類設定緯度的業務數據進行分組，按照每個分組的預設算子，對分組內設定緯度的業務數據進行處理。本發明按照業務數據的預設結構對業務數據進行提取，得到設定緯度的業務數據，分組后按照每個分組的預設算子，對分組內設定緯度的業務數據進行處理，實現了實時計算階段拆分，同時各階段計算邏輯不過分耦合，每個分組的預設算子供其他計算模型進行復用，使得流數據的處理更加高效。

技術領域

本發明涉及計算機技術領域，尤其涉及一種流數據處理的方法及裝置。

背景技術

近年來，隨著信息技術的快速發展，數據量呈現飛速增長的趨勢，對于海量數據，單臺計算機的處理能力已經遠遠不夠，由此推動了分布式系統的研究和進展。如何在海量數據中快速分析獲取有用的信息是現在分布式計算領域的研究熱點，流式計算應運而生。

針對流數據應用場景，與傳統的存儲在磁盤或內存中的數據不同，流數據的特點在于：實時性：數據流實時產生，需要實時得出分析結果；持久性：數據流無限持續產生和流入。

由于上述流計算的優勢，流計算得到了廣泛的應用。現有典型的分布式流計算框架有Storm、Sparkstreaming、Flink等，這些框架在分布式環境下的實時性和容錯性都很不錯，但是針對特定的業務場景，耦合度過高，增加開發維護成本，流式計算邏輯對業務人員是不透明的，隨著產品線上運行情況快速變化，計算邏輯的每次變動都需要開發人員重新開發，不利于業務快速展開，無法滿足業務需求，且框架的代碼利用率低，造成一定的系統資源浪費。在流式計算場景下，通用的流計算框架有相對笨重、耦合度高、異構性低的缺點。

發明內容

本申請提供了一種流數據處理的方法及裝置，用以解決如何方便高效的對流數據進行處理的問題。

第一方面，本申請實施例提供一種流數據處理的方法，包括：

從監測的流數據中獲取符合篩選規則的各類業務數據；

針對每類業務數據，按照所述業務數據的預設結構對所述業務數據進行提取，得到設定緯度的業務數據；所述預設結構包括至少一個設定緯度；

按照預設的分組規則，對各類設定緯度的業務數據進行分組；

按照每個分組的預設算子，對分組內所述設定緯度的業務數據進行處理。

上述方案，按照業務數據的預設結構對業務數據進行提取，得到設定緯度的業務數據，分組后按照每個分組的預設算子，對分組內設定緯度的業務數據進行處理，實現了實時計算階段拆分，同時各階段計算邏輯不過分耦合，每個分組的預設算子供其他計算模型進行復用，靈活組合，使得流數據的處理更加高效。

可選的，所述篩選規則包括以下至少一項：設定的數據源、設定類別的業務數據、設定的時間窗口。

上述方案，通過設定數據源、業務數據的類別或時間窗口進行數據篩選，將數據格式統一，過濾了無用數據，使得計算更加高效。

可選的，所述按照所述業務數據的預設結構對所述業務數據進行提取，得到設定緯度的業務數據，包括：

按照所述業務數據的預設結構，將同一時間窗口內的所述業務數據構建數據矩陣；其中，每條業務數據對應所述數據矩陣中的一行，各條業務數據的同一設定緯度對應所述數據矩陣中的一列。