[發明專利]一種基于跨引擎水平分區表的大數據生命周期管理方法在審

申請號：	202010616160.4	申請日：	2020-07-01
公開（公告）號：	CN111752930A	公開（公告）日：	2020-10-09
發明（設計）人：	樊文昌;于偉;周恒	申請（專利權）人：	浪潮云信息技術股份公司
主分類號：	G06F16/21	分類號：	G06F16/21;G06F16/27
代理公司：	濟南信達專利事務所有限公司 37100	代理人：	劉淑風
地址：	250100 山東省濟南市高***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于引擎水平分區表數據生命周期管理方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種基于跨引擎水平分區表的大數據生命周期管理方法，屬于大數據管理領域。該方法是將需要頻繁訪問的熱數據保存在事務型數據庫中，訪問頻率較低的溫數據保存在分析數據庫，偶爾使用的冷數據保存在Hadoop；同時隨著時間的推移，熱數據變成溫數據后，自動將其遷移到分析型數據庫中；溫數據變冷后，自動將其遷移到Hadoop數據庫中。經實例驗證，本發明能夠依據數據在不同階段的價值實施不同的管理策略，充分發揮事務型數據庫、分析型數據庫和Hadoop大數據平臺的優勢，以高性價比方式，實現了大數據全生命周期管理，解決了大數據生命周期面臨的數據冗余、遷移成本高、管理復雜等關鍵問題。

技術領域

本發明屬于大數據管理領域，尤其是基于多種類型數據庫，完成大數據全生命周期管理的方法。

背景技術

數據的生命周期管理是依據數據在不同階段的價值實施不同的管理策略，以簡單、可靠、經濟、有效的方式是數據發揮最大價值。隨著時間的推移，數據的訪問頻率逐漸下降，根據這一規律一般將數據生命周期分為熱、溫和冷三個階段。

當前在數據生命周期管理領域，不同溫度的數據遷移需要人工操作，即使采用自動批量遷移方法，也存在效率低和實時性差的問題。

發明內容

本發明的技術任務是解決現有技術的不足，提供一種基于跨引擎水平分區表的大數據生命周期管理方法，以解決數據生命周期管理難題，充分利用事務型數據庫適合管理熱數據、分型線數據庫適合管理溫數據和Hadoop大數據平臺適合管理冷數據的特征，綜合各數據庫的優點，以高性價比的方式實現大數據全生命周期管理。同時，解決傳統依靠定時任務通過SQL語句批量遷移數據效率低和實時性差的問題。

術語說明：

事務型數據庫，面向實時、在線交易類應用的關系數據庫，具備高可靠、高性能、低延遲等特點，重點關注最近一段時間的數據變化。

分析型數據庫，面向大量數據復雜分析類應用的關系數據庫，一般存儲的數據時間跨度長，數據量大，對實時性要求不高，通過查詢分析規律趨勢，支撐決策類場景。

Apache Hadoop是一款支持數據密集型分布式應用程序并以Apache 2.0許可協議發布的開源軟件框架及大數據生態。

本發明解決其技術問題所采用的技術方案是：

本發明的一種基于跨引擎水平分區表的大數據生命周期管理方法，其基本思路是將需要頻繁訪問的熱數據保存在事務型數據庫中，訪問頻率較低的溫數據保存在分析數據庫，偶爾使用的冷數據保存在Hadoop；

同時隨著時間的推移，熱數據變成溫數據后，自動將其遷移到分析型數據庫中；

溫數據變冷后，自動將其遷移到Hadoop數據庫中。

為達到上述目的，本發明采取跨數據庫的水平分區表技術方案，包括以下步驟：

步驟1：創建水平分區表并指定分區信息；

步驟2：數據寫入熱分區；

步驟3：遷移捕獲器實時捕獲待遷移數據；