[發明專利]一種實時大數據處理方法、裝置及電子設備在審
| 申請號: | 202010986807.2 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112035534A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 田宗耕 | 申請(專利權)人: | 上海依圖網絡科技有限公司 |
| 主分類號: | G06F16/2457 | 分類號: | G06F16/2457;G06F16/23;G06F16/27;G06F16/335;G06F16/35 |
| 代理公司: | 上海華誠知識產權代理有限公司 31300 | 代理人: | 徐穎聰 |
| 地址: | 200051 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實時 數據處理 方法 裝置 電子設備 | ||
1.一種實時大數據處理方法,其特征在于,所述方法包括:
監聽數據源,實時監聽所述數據源,當所述數據源的數據有更新,將更新數據發送到第一消息隊列;
提取數據標簽,通過預設規則或模型解析,從所述第一消息隊列里的更新數據中提取標簽,并將所述更新數據及對應的所述標簽發送到第二消息隊列,其中,所述標簽用于標識數據關鍵信息;
數據分類存儲,包括:
將預設時間范圍內的所述第二消息隊列里的數據及對應的標簽存儲到第一數據庫;
基于所述標簽對所述第二消息隊列里的數據過濾,將與所述標簽一致的對應數據存放到第二數據庫;
將所述第二消息隊列里的數據按照主題分類,篩選所述主題與預設主題一致的數據存儲到第三數據庫,其中,所述主題用于總結數據含義。
2.根據權利要求1所述的方法,其特征在于,所述監聽數據源包括:
定時啟動或關閉對所述數據源的監聽。
3.根據權利要求1所述的方法,其特征在于,當用戶更改生成所述標簽的規則或模型時,實時生成新的標簽時,并且開啟定時任務,對所述第一數據庫里的數據重新提取數據標簽,并進行數據分類存儲,更新所述第一數據庫、第二數據庫、第三數據庫。
4.根據權利要求1所述的方法,其特征在于,所述數據源的數據可以是文本數據、音頻數據、視頻數據中任一種。
5.根據權利要求1所述的方法,其特征在于,所述提取數據標簽和所述數據分類存儲是實時流任務,在流處理框架下執行該任務。
6.根據權利要求5所述的方法,其特征在于,所述流處理框架可以選擇Flink、Storm、Map Reduce、Spark中任一種。
7.根據權利要求1所述的方法,其特征在于,所述第一數據庫是全量數據庫,所述全量數據庫用于存儲在預設時間范圍內的全部數據及該數據對應的所述標簽;所述全量數據庫對其內部存儲的數據設有數據生命周期,基于所述數據生命周期定期清除超出所述數據生命周期的數據;
所述第二數據庫是現行數據庫,所述現行數據庫用于存儲基于標簽過濾所述第二消息隊列內后的數據,且所述現行數據庫對應的上層應用可顯示或查詢所述現行數據庫;
所述第三數據庫是存檔數據庫,所述存檔數據庫用于存儲與人工篩選的數據,且所述存檔數據庫中的數據是永久保存。
8.根據權利要求1所述的方法,其特征在于,所述數據包括數據的事件時間屬性和數據的處理時間屬性。
9.一種實時大數據處理裝置,其特征在于,所述裝置包括:
監聽數據源模塊,實時監聽所述數據源,當所述數據源的數據有更新,將更新數據發送到第一消息隊列;
提取數據模塊,通過預設規則或模型解析,從所述第一消息隊列里的更新數據中提取標簽,并將所述更新數據及對應的所述標簽發送到第二消息隊列,其中,所述標簽用于標識數據關鍵信息;
數據分類存儲模塊,包括:
將預設時間范圍內的所述第二消息隊列里的數據及對應的標簽存儲到第一數據庫;
基于所述標簽對所述第二消息隊列里的數據過濾,將與所述標簽一致的對應數據存放到第二數據庫;
將所述第二消息隊列里的數據按照主題分類,篩選所述主題與預設主題一致的數據存儲到第三數據庫,其中,所述主題用于總結數據含義。
10.一種電子設備,其特征在于,包括處理器和存儲器,
所述存儲器中存儲有指令,
所述處理器,用于讀取所述存儲器中存儲的所述指令,以執行權利要求1-8任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海依圖網絡科技有限公司,未經上海依圖網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010986807.2/1.html,轉載請聲明來源鉆瓜專利網。





