[發明專利]一種基于跨引擎水平分區表的大數據生命周期管理方法在審
| 申請號: | 202010616160.4 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111752930A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 樊文昌;于偉;周恒 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F16/27 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 劉淑風 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 引擎 水平 分區表 數據 生命周期 管理 方法 | ||
本發明提供一種基于跨引擎水平分區表的大數據生命周期管理方法,屬于大數據管理領域。該方法是將需要頻繁訪問的熱數據保存在事務型數據庫中,訪問頻率較低的溫數據保存在分析數據庫,偶爾使用的冷數據保存在Hadoop;同時隨著時間的推移,熱數據變成溫數據后,自動將其遷移到分析型數據庫中;溫數據變冷后,自動將其遷移到Hadoop數據庫中。經實例驗證,本發明能夠依據數據在不同階段的價值實施不同的管理策略,充分發揮事務型數據庫、分析型數據庫和Hadoop大數據平臺的優勢,以高性價比方式,實現了大數據全生命周期管理,解決了大數據生命周期面臨的數據冗余、遷移成本高、管理復雜等關鍵問題。
技術領域
本發明屬于大數據管理領域,尤其是基于多種類型數據庫,完成大數據全生命周期管理的方法。
背景技術
數據的生命周期管理是依據數據在不同階段的價值實施不同的管理策略,以簡單、可靠、經濟、有效的方式是數據發揮最大價值。隨著時間的推移,數據的訪問頻率逐漸下降,根據這一規律一般將數據生命周期分為熱、溫和冷三個階段。
當前在數據生命周期管理領域,不同溫度的數據遷移需要人工操作,即使采用自動批量遷移方法,也存在效率低和實時性差的問題。
發明內容
本發明的技術任務是解決現有技術的不足,提供一種基于跨引擎水平分區表的大數據生命周期管理方法,以解決數據生命周期管理難題,充分利用事務型數據庫適合管理熱數據、分型線數據庫適合管理溫數據和Hadoop大數據平臺適合管理冷數據的特征,綜合各數據庫的優點,以高性價比的方式實現大數據全生命周期管理。同時,解決傳統依靠定時任務通過SQL語句批量遷移數據效率低和實時性差的問題。
術語說明:
事務型數據庫,面向實時、在線交易類應用的關系數據庫,具備高可靠、高性能、低延遲等特點,重點關注最近一段時間的數據變化。
分析型數據庫,面向大量數據復雜分析類應用的關系數據庫,一般存儲的數據時間跨度長,數據量大,對實時性要求不高,通過查詢分析規律趨勢,支撐決策類場景。
Apache Hadoop是一款支持數據密集型分布式應用程序并以Apache 2.0許可協議發布的開源軟件框架及大數據生態。
本發明解決其技術問題所采用的技術方案是:
本發明的一種基于跨引擎水平分區表的大數據生命周期管理方法,其基本思路是將需要頻繁訪問的熱數據保存在事務型數據庫中,訪問頻率較低的溫數據保存在分析數據庫,偶爾使用的冷數據保存在Hadoop;
同時隨著時間的推移,熱數據變成溫數據后,自動將其遷移到分析型數據庫中;
溫數據變冷后,自動將其遷移到Hadoop數據庫中。
為達到上述目的,本發明采取跨數據庫的水平分區表技術方案,包括以下步驟:
步驟1:創建水平分區表并指定分區信息;
步驟2:數據寫入熱分區;
步驟3:遷移捕獲器實時捕獲待遷移數據;
步驟4:遷移通道實現數據自動遷移。
可選地,步驟1所述創建水平分區表并指定分區信息,步驟如下:
1.1、在創建表時,定義唯一分區列,作為數據分區的分區鍵,并保證分區列必須是時間類型;
1.2、指定每個分區對應引擎的標識和連接信息;
1.3、指定唯一的分區邊界條件,用于判定分區鍵所屬分區,并隨著時間推移分區邊界將動態調整。
可選地,步驟2所述數據寫入熱分區,步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010616160.4/2.html,轉載請聲明來源鉆瓜專利網。





