[發明專利]實時大數據鏡像存儲方法及裝置有效
| 申請號: | 201710771908.6 | 申請日: | 2017-08-31 |
| 公開(公告)號: | CN109426438B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 涂鋒;尹啟祿;顧學偉;王建宏;劉鈺柏;黃志豪;劉忱 | 申請(專利權)人: | 中國移動通信集團廣東有限公司;中國移動通信集團公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李官 |
| 地址: | 510623 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實時 數據 存儲 方法 裝置 | ||
本發明實施例提供了一種實時大數據鏡像存儲方法及裝置,該方法對從實時數據源中獲取的原始數據進行數據拆分,并對拆分后的數據按實際業務需求進行重排、篩選、刪除等鏡像處理,最終存儲經過鏡像處理之后的數據,從而能夠減少數據冗余,提高數據可用性。此外,本發明實施例提供的方法還能夠對經過鏡像處理后的緩存數據、最終存儲在指定路徑的存儲數據進行檢驗分析,只有在與原始數據的誤差較小時才能夠完成本次存儲,從而能夠增加存儲數據的準確性,為后期的數據分析提供有力支持。
技術領域
本發明實施例涉及軟件技術領域,具體涉及一種實時大數據鏡像存儲方法及裝置。
背景技術
隨著互聯網技術的快速發展,大數據已經成為了熱門話題,特別是對于運營商、大型互聯網公司來講,數據每天以PB的量級在增長,各相關企業為了響應黨和政府的號召,大力發展大數據應用產業,建設了自己的大數據分析處理平臺,進行大數據的存儲、分析、應用等。在實際的大數據應用中,數據的采集實時性很強,例如:運營商的信令數據采集、互聯網公司的日志數據采集,實時性都從分鐘級到秒級,這種實時性的數據可為對實時性要求較高的大數據應用,例如:城市熱力圖帶來應用精準、質量的提升,所以,如何將采集的數據更好地進行存儲分析,減少從采集到存儲到應用的時間,保證數據準確性,是一個亟待解決的問題。
現在的流行的大數據平臺,主要是以開源的hadoop平臺做為基礎,通過hadoop分布式文件系統(HDFS)對大數據進行存儲。對于實時大數據的存儲,一般是將數據接收后序列化并壓縮后作為小文件順序存儲到本地文件系統,在小文件的絕對位置確定后,重新計算小文件的相對位置以追加為一個大文件來保證文件的完整性,且大文件依然可分割,然后異步追加小文件到HDFS中。
然而,在實現發明創造的過程中,發明人發現,現有的方案存在以下問題:
1、數據冗余度大,完成數據存儲后,后面的數據分析應用需要對原始數據進行大量的原始處理,去除無用信息才能用于分析使用,會消耗大量有用計算資源;
2、數據缺失可能性大,由于未對數據內容進行存儲后的檢驗,可能會導致部分數據缺失而無法發現,造成后期數據分析不準確。
發明內容
本發明實施例提供一種用于實時大數據鏡像存儲方法及裝置,用于克服現有的大數據存儲方法數據冗余度大、數據易缺失的缺陷。
第一方面,本發明實施例提供一種實時大數據鏡像存儲方法,包括:
接收實時數據源;
對所述實時數據源中的原始數據進行行列拆分,獲取所述原始數據的原始數據記錄數;并對所述原始數據按預設的鏡像算法進行鏡像處理,得到鏡像后的數據結果,再將所述數據結果存儲至緩存變量中,記錄所述緩存變量中的緩存數據記錄數;
若所述緩存變量的大小達到設定值,則判斷所述原始數據記錄數與所述緩存數據記錄數的誤差是否小于預設閾值;
若小于,則將所述緩存變量中的緩存數據按指定的配置路徑存儲至存儲文件中,記錄所述存儲文件中的存儲數據記錄數;
判斷所述緩存數據記錄數與所述存儲數據記錄數的誤差是否小于預設閾值;若小于,則將所述存儲文件發送至外部分布式存儲系統進行存儲。
可選地,所述對原始數據按預設的鏡像算法進行鏡像處理,得到鏡像后的數據結果,包括:
加載數據鏡像配置表;
根據所述配置表中配置的列數據鏡像映射關系,對所述原始數據中每一行進行列數據鏡像處理,得到鏡像后的數據結果。
可選地,所述方法還包括:
獲取本機系統的資源情況,并計算本機系統當前的資源負載值;
若所述本機系統的資源負載值大于第一閾值,則減少數據鏡像處理隊列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團廣東有限公司;中國移動通信集團公司,未經中國移動通信集團廣東有限公司;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710771908.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:寫時拷貝方法及裝置
- 下一篇:對分布式存儲系統進行擴容的方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





