[發明專利]標簽系統數據的存儲方法和裝置有效
| 申請號: | 201710476509.7 | 申請日: | 2017-06-21 |
| 公開(公告)號: | CN107330024B | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 郝鑄 | 申請(專利權)人: | 華為機器有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/27 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊貝貝;劉芳 |
| 地址: | 523808 廣東省東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 系統 數據 存儲 方法 裝置 | ||
本申請提供一種標簽系統數據的存儲方法和裝置。該方法包括:獲取在標簽計算任務完成時,按列格式存儲在工作目錄中的列族文件;列族文件中包括一個標識列和至少一個標簽列;根據列族文件的列族名稱,將列族文件移動到歸檔目錄中與列族名稱對應的歸檔子目錄下。通過將列族文件按列格式存儲,提高了數據批量讀寫吞吐率,方便了數據更新。同時,由于標簽計算任務的計算結果直接存儲在HDFS中,減少了數據的移動,將數據延遲降低到了最低,降低了成本。通過存儲列族文件的多個版本,也方便了對列族文件的版本管理,根據多版本的列族文件進行基于時間序列的分許。
技術領域
本申請涉及數據處理領域,尤其涉及一種標簽系統數據的存儲方法和裝置。
背景技術
在大數據時代,為方便數據分析和信息挖掘,數據越來越多的以標簽系統的形式存儲。用戶標簽系統是一種常見的標簽系統應用,用戶標簽可用于對用戶進行精準快速的分析和畫像。
標簽系統中的數據存儲和分析多采用大數據生態系統(hadoop)的技術組件實現。示例性的,通常基于計算引擎spark或Map-Reduce對數據進行批量計算,然后將計算結果存儲在非關系型的數據庫(NoSQL)中,如鍵值(key-value)類型數據庫。在存儲過程中通常以實體標識為行主鍵,將標簽按照key-value的形式存入NoSQL數據庫,方便后續在NoSQL數據庫中做數據的查詢分析。
但是,由于NoSQL數據庫將數據按key存儲,導致數據吞吐率較差,數據的批量讀寫性能差。
發明內容
本申請提供一種標簽系統數據的存儲方法和裝置,用以解決現有標簽系統中,將標簽數據存儲在NoSQL數據庫中,導致數據吞吐率較差,數據的批量讀寫性能差的問題。
本申請一方面提供一種標簽系統數據的存儲方法,該方法包括:
獲取在標簽計算任務完成時,按列格式存儲在工作目錄中的列族文件;所述列族文件中包括一個標識列和至少一個標簽列;
根據所述列族文件的列族名稱,將所述列族文件移動到歸檔目錄中與所述列族名稱對應的歸檔子目錄下。
在一種實施方式中,所述根據所述列族文件的列族名稱,將所述列族文件移動到歸檔目錄中與所述列族名稱對應的歸檔子目錄下,包括:
根據所述列族文件的時間信息,在所述歸檔子目錄下創建與所述時間信息對應的二級歸檔子目錄,將所述列族文件移動到所述二級歸檔子目錄下;或者
根據所述列族文件的時間信息,修改所述列族文件的列族名稱,將所述修改列族名稱后的列族文件存儲在在所述歸檔子目錄下。
在一種實施方式中,所述根據所述列族文件的列族名稱,將所述列族文件移動到歸檔目錄中與所述列族名稱對應的歸檔子目錄下之后,所述方法還包括:
根據預設更新周期,將所述歸檔目錄中的所有第一列族文件備份在時間序列目錄中;
其中,各所述第一列族文件的更新周期與所述預設更新周期相同,所述第一列族文件為所屬的歸檔子目錄中的最晚存入的列族文件。
在一種實施方式中,所述將所述列族文件移動到歸檔目錄中與所述列族名稱對應的歸檔子目錄下之前,所述方法還包括:
在所述歸檔目錄中創建與所述列族名稱對應的歸檔子目錄。
在一種實施方式中,所述將所述列族文件移動到歸檔目錄中與所述列族名稱對應的歸檔子目錄下之前,所述方法還包括:
當所述歸檔子目錄中的列族文件或二級歸檔子目錄的個數等于預設數值時,根據列族文件或二級歸檔子目錄的時間信息,在所述歸檔子目錄中刪除預設個數個列族文件或二級歸檔子目錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為機器有限公司,未經華為機器有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710476509.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:真空泵及其轉子
- 下一篇:固體化學品對金屬腐蝕性的測試方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





