[發明專利]一種hdfs中冷數據的處理方法及系統在審
| 申請號: | 201710985572.3 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN107861999A | 公開(公告)日: | 2018-03-30 |
| 發明(設計)人: | 崔晶晶;吳淑佳 | 申請(專利權)人: | 北京集奧聚合科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京和信華成知識產權代理事務所(普通合伙)11390 | 代理人: | 胡劍輝 |
| 地址: | 100142 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 hdfs 數據 處理 方法 系統 | ||
技術領域
本發明涉及大數據處理和數據安全的技術領域,尤其涉及一種hdfs中冷數據的處理方法,以及hdfs中冷數據的處理系統。
背景技術
hadoop集群中的存儲設備,是企業數據的重要載體,非常寶貴且昂貴,如何高效地利用存儲資源是一個比較棘手的難題。
資源是有限的,并且存在一些冷數據,無法及時地清理,會一直在占用著寶貴的存儲資源。雖然通過實施使用規范有一定的作用,但是人工處理冷數據的成本非常高,并且也很難徹底解決集群所面臨的存儲空間的管理問題,如何自動化地高效處理冷數據變得非常重要。
目前的做法一般是通過人工的方式,找出不再使用的冷數據,相關人員確認之后再做刪除或者冷備處理,騰出存儲空間,供后續的數據使用,并且每隔一段時間都要做一下相關的清理操作。
但是,這種人工對冷數據的處理的方式,效率非常低下,并且由于面臨的是海線量數據,難以徹底清理冷數據,最終還會導致部分存儲資源的浪費。
發明內容
為克服現有技術的缺陷,本發明要解決的技術問題是提供了一種hdfs中冷數據的處理方法,其能夠完全替代人工處理的方式,把超過一定時間(比如三個月)沒有被訪問的數據識別出來,按照預定的冷數據處理策略,或者把數據移動到垃圾回收目錄,或者把冷數據壓縮到特定的目錄,以最大限度地清理出來存儲空間,提升存儲空間的使用效率。
本發明的技術方案是:這種hdfs中冷數據的處理方法,該方法包括以下步驟:
(1)讀取配置中的目錄列表和既定的數據處理策略;
(2)循環監測數據的最后訪問時間與系統當前時間的差,判斷是否超過一定時間條件,如果沒有超過則跳過此目錄,繼續判定下一個目錄的狀態,如果超過則執行步驟(3);
(3)對于需要清除的冷數據,直接放入垃圾回收站,對于需要冷數據儲備的數據,壓縮之后放入特定的目錄下永久存儲;
(4)對垃圾回收站中的數據存儲一定時間之后,直接徹底刪除,如果需要找垃圾回收站中的數據,對垃圾站中的數據做回滾操作;
(5)如果冷數據儲備中的數據需要參與運算,直接解壓到它原來所在的目錄,進而參與正常的邏輯運算。
本發明通過冷數據智能清理、備份、恢復、處理,能夠完全替代人工處理的方式,把超過一定時間(比如三個月)沒有被訪問的數據識別出來,按照預定的冷數據處理策略,或者把數據移動到垃圾回收目錄,或者把冷數據壓縮到特定的目錄,以最大限度地清理出來存儲空間,提升存儲空間的使用效率。
還提供了一種hdfs中冷數據的處理系統,該系統包括:
讀取模塊,其配置來讀取配置中的目錄列表和既定的數據處理策略;
監測模塊,其配置來循環監測數據的最后訪問時間與系統當前時間的差,判斷是否超過一定時間條件,如果沒有超過則跳過此目錄,繼續判定下一個目錄的狀態,如果超過則執行冷數據處理模塊;
冷數據處理模塊,其配置來對于需要清除的冷數據,直接放入垃圾回收站,對于需要冷數據儲備的數據,壓縮之后放入特定的目錄下永久存儲;
垃圾回收站處理模塊,其配置來對垃圾回收站中的數據存儲一定時間之后,直接徹底刪除,如果需要找垃圾回收站中的數據,對垃圾站中的數據做回滾操作;
冷數據儲備處理模塊,其配置來如果冷數據儲備中的數據需要參與運算,直接解壓到它原來所在的目錄,進而參與正常的邏輯運算。
附圖說明
圖1所示為根據本發明的hdfs中冷數據的處理方法的流程圖。
具體實施方式
如圖1所示,這種hdfs中冷數據的處理方法,該方法包括以下步驟:
(1)讀取配置中的目錄列表和既定的數據處理策略;
(2)循環監測數據的最后訪問時間與系統當前時間的差,判斷是否超過一定時間條件,如果沒有超過則跳過此目錄,繼續判定下一個目錄的狀態,如果超過則執行步驟(3);
(3)對于需要清除的冷數據,直接放入垃圾回收站,對于需要冷數據儲備的數據,壓縮之后放入特定的目錄下永久存儲;
(4)對垃圾回收站中的數據存儲一定時間之后,直接徹底刪除,如果需要找垃圾回收站中的數據,對垃圾站中的數據做回滾操作;
(5)如果冷數據儲備中的數據需要參與運算,直接解壓到它原來所在的目錄,進而參與正常的邏輯運算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京集奧聚合科技有限公司,未經北京集奧聚合科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710985572.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:業務數據的導入方法、裝置和計算機設備
- 下一篇:一種農業技術咨詢人機對話方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





