[發明專利]一種基于緩存的大數據處理維表存算系統及其方法有效
| 申請號: | 202210165044.4 | 申請日: | 2022-02-22 |
| 公開(公告)號: | CN114546274B | 公開(公告)日: | 2023-10-27 |
| 發明(設計)人: | 趙永振;馬上坤;高馳濤 | 申請(專利權)人: | 云智慧(北京)科技有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06;G06F16/22;G06F16/242;G06F16/2455 |
| 代理公司: | 北京華桐專利代理事務所(特殊普通合伙) 16111 | 代理人: | 王華興 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 緩存 數據處理 維表存算 系統 及其 方法 | ||
本發明公開了一種基于緩存的大數據處理維表存算系統及其方法,其中大數據處理維表存算系統包括數據存儲模塊、維表配置模塊、Redis連接管理模塊、數據類型轉換模塊、主鍵處理模塊、普通字段處理模塊、數據寫入模塊、數據關聯模塊和Flink集成模塊;通過Redis能夠明顯提升數據處理速度和吞吐量,解決數據處理延遲問題,Redis維表能夠消除因關聯數據過大而導致的內存溢出問題;并且能夠提供Flink SQL方式操作讀寫Redis數據,封裝單機、集群、哨兵、代理模式Redis服務,統一服務接口和大數據開發技術棧,提高大數據開發便捷性。
技術領域
本發明涉及大數據技術領域,具體涉及一種基于緩存的大數據處理維表存算系統及其方法。
背景技術
隨著信息技術的蓬勃發展,在各行各業的數字化轉型的大趨勢下,企業的數據規模越來越大,傳統的數據處理技術已經不能滿足海量數據的實時處理訴求,得益于hadoop、Spark、Flink等大數據處理技術的不斷發展和演進,數據以更高的吞吐量和更低的處理時延被處理,因此快速的處理速度是最大化提取數據價值的關鍵。技術迭代也使得數據的處理的方式變得越來越簡單便捷,大數據開發技術從最開始的Java、Scala發展到Python、SQL。當前,Flink實時處理技術正以其高吞吐、低時延的處理性能和SQL式、流批一體化的簡易開發模式引領了大數據技術的發展與革新。數據處理過程中的維表關聯效率是影響計算結果時效性和準確性的關鍵因素,因維表數據量過大導致的內存溢出、處理超時、關聯失敗等問題一直是大數據開發的難點,在海量數據的情況下,要實現高吞吐、低時延的維表關聯必須要使用高性能、可擴展的緩存存儲服務。業內常用維表存儲服務有HBase、MySQL、Redis等,其中HBase和MySQL由Flink官方支持,提供SQL式數據寫入、關聯方案,MySQL做維表的優勢在于其具備完善的數據格式和靈活的關聯語意,但受限于MySQL的數據讀寫性能,僅支持小數據量情況下的數據關聯,無法支撐大數據量、高并發的讀和寫;而HBase采用了LSM數據結構,底層存儲使用HDFS,對于海量數據的寫入有比較好的性能表現,但讀取性能不是很高;Redis是使用C語言開發的基于內存、分布式的鍵值對存儲數據庫,使用內存存儲避免了低速的磁盤操作,使得Redis的數據讀寫都很快速,分布式的特性讓Redis可以支撐大數據量的并發訪問,但由于Redis并未被Flink官方支持,業內在使用Redis做維表時大都使用Java編碼,調用Redis的API操作數據讀寫,或者是編寫UDF,使用Flink SQL調用。這兩種解決方案都需要Java編碼且不支持代碼復用、操作繁瑣,不利于技術棧的統一和代碼、任務的維護。
因此需要提供一種基于緩存的大數據處理維表存算系統及其方法,從而實現提升維表關聯效率、統一服務接口和大數據開發技術棧,提高大數據開發便捷性。
發明內容
本發明針對大數據處理的數據信息發展需求,提供一種基于緩存的大數據處理維表存算系統及其方法,可以整合不同Redis服務模式,實現統一、簡單的緩存數據讀寫,包括:緩存存儲服務以及服務管理,緩存存儲服務使用Redis,并支持單機、集群、哨兵、代理服務模式;服務管理用于連接、寫入、讀取緩存存儲服務,提供數據操作能力;使用Flink SQL操作數據進行緩存寫入,包括:流、批式數據獲取、數據轉換與封裝,從批或流的數據源獲取業務數據,并使用Flink SQL方式對數據進行處理;將獲取到的數據進行格式轉換,并封裝成字符串格式的索引Key和MAP格式的待存儲數據,調用本發明第一方面實現方式提供的數據寫入能力進行數據寫入;使用Flink SQL操作數據進行緩存關聯計算,以完成數據信息補齊,包括:流、批式數據獲取、索引Key轉換與封裝以及數據補全;從批或流的數據源獲取待補全業務數據,并使用Flink SQL方式對數據進行處理;將獲取到的數據進行轉換、封裝,得到字符串格式的索引Key,進一步根據索引Key調用本發明第一方面實現方式提供的數據讀取能力,并將讀取到的信息補全至業務數據,完成業務數據信息補齊。
本發明解決上述技術問題所采用的技術方案包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云智慧(北京)科技有限公司,未經云智慧(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210165044.4/2.html,轉載請聲明來源鉆瓜專利網。





