[發(fā)明專利]數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置和服務器有效
| 申請?zhí)枺?/td> | 201711461712.3 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN109271097B | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設計)人: | 趙英超;饒云 | 申請(專利權(quán))人: | 新華三大數(shù)據(jù)技術有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 北京林達劉知識產(chǎn)權(quán)代理事務所(普通合伙) 11277 | 代理人: | 劉新宇 |
| 地址: | 450000 河南省鄭州市鄭州高新*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù)處理 方法 裝置 服務器 | ||
本公開涉及一種數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置和服務器,該方法包括:接收已采集數(shù)據(jù),并根據(jù)已采集數(shù)據(jù)的參數(shù)值計算已采集數(shù)據(jù)的數(shù)據(jù)摘要;在第一數(shù)據(jù)表中插入所述已采集數(shù)據(jù)的行鍵、時間戳和數(shù)據(jù)摘要;以所述已采集數(shù)據(jù)的數(shù)據(jù)摘要作為行鍵在第二數(shù)據(jù)表中查詢;所述第二數(shù)據(jù)表中的行鍵為數(shù)據(jù)摘要,所述第二數(shù)據(jù)表包含一個用于存儲計數(shù)值的計數(shù)列和至少一個用于存儲已采集數(shù)據(jù)的參數(shù)值的參數(shù)列;若在所述第二數(shù)據(jù)表中查詢到所述已采集數(shù)據(jù)的數(shù)據(jù)摘要,則將對應的行數(shù)據(jù)中的所述計數(shù)值疊加固定值。由此,對于接收到的相同數(shù)據(jù),在第二數(shù)據(jù)表中不重復存儲該數(shù)據(jù),僅通過計數(shù)值來標記該數(shù)據(jù)重復的次數(shù),從而可以節(jié)省存儲空間。
技術領域
本公開涉及通信技術領域,尤其涉及一種數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置和服務器。
背景技術
HBase(Hadoop Database,Hadoop數(shù)據(jù)庫)是一種面向列、可伸縮、實時讀寫的分布式存儲數(shù)據(jù)庫,能夠?qū)崿F(xiàn)復雜任務的并行和分布處理,具有很高的處理性能和可靠性。
然而,HBase可能存儲了大量的重復數(shù)據(jù),浪費了大量的存儲空間。例如,針對用于進行用戶行為分析的大數(shù)據(jù)分析軟件,使用HBase存儲AP(Access Point,接入點)在每個時刻上報的位置信息。如果AP的位置在一個時間段內(nèi)沒有發(fā)生改變,則該AP在該時間段內(nèi)的每個時刻上報相同的位置信息,這導致HBase表中存儲了大量的重復的位置信息。
因此,需要對存儲在HBase表中的數(shù)據(jù)進行去重處理,以刪除HBase表中的重復數(shù)據(jù),從而節(jié)省存儲空間。
發(fā)明內(nèi)容
有鑒于此,本公開提出了一種數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置和服務器。
根據(jù)本公開的第一方面,提供了一種數(shù)據(jù)處理方法,該方法包括:
接收已采集數(shù)據(jù),并根據(jù)所述已采集數(shù)據(jù)的參數(shù)值計算所述已采集數(shù)據(jù)的數(shù)據(jù)摘要;
在第一數(shù)據(jù)表中插入所述已采集數(shù)據(jù)的行鍵、時間戳和數(shù)據(jù)摘要;
以所述已采集數(shù)據(jù)的數(shù)據(jù)摘要作為行鍵在第二數(shù)據(jù)表中查詢;所述第二數(shù)據(jù)表中的行鍵為數(shù)據(jù)摘要,所述第二數(shù)據(jù)表包含一個用于存儲計數(shù)值的計數(shù)列和至少一個用于存儲所述已采集數(shù)據(jù)的參數(shù)值的參數(shù)列;
若在所述第二數(shù)據(jù)表中查詢到所述已采集數(shù)據(jù)的數(shù)據(jù)摘要,則將對應的行數(shù)據(jù)中的所述計數(shù)值疊加固定值。
根據(jù)本公開的第二方面,提供了一種數(shù)據(jù)處理裝置,該裝置包括:
接收模塊,用于接收已采集數(shù)據(jù),并根據(jù)所述已采集數(shù)據(jù)的參數(shù)值計算所述已采集數(shù)據(jù)的數(shù)據(jù)摘要;
插入模塊,用于在第一數(shù)據(jù)表中插入所述已采集數(shù)據(jù)的行鍵、時間戳和數(shù)據(jù)摘要;
查詢模塊,用于以所述已采集數(shù)據(jù)的數(shù)據(jù)摘要作為行鍵在第二數(shù)據(jù)表中查詢;所述第二數(shù)據(jù)表中的行鍵為數(shù)據(jù)摘要,所述第二數(shù)據(jù)表包含一個用于存儲計數(shù)值的計數(shù)列和至少一個用于存儲所述已采集數(shù)據(jù)的參數(shù)值的參數(shù)列;
處理模塊,用于若在所述第二數(shù)據(jù)表中查詢到所述已采集數(shù)據(jù)的數(shù)據(jù)摘要,則將對應的行數(shù)據(jù)中的所述計數(shù)值疊加固定值。
根據(jù)本公開的第三方面,提供了一種服務器,包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為:執(zhí)行上述的方法的步驟。
本公開的實施例提供的技術方案可以包括以下有益效果:對于接收到的相同數(shù)據(jù),在第二數(shù)據(jù)表中不重復存儲該數(shù)據(jù),僅通過計數(shù)值來標記該數(shù)據(jù)重復的次數(shù),從而可以節(jié)省存儲空間。
并且,本公開的實施例提供的技術方案,可以通過HBase提供的協(xié)處理器機制實現(xiàn),無需開發(fā)第三方應用程序。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華三大數(shù)據(jù)技術有限公司,未經(jīng)新華三大數(shù)據(jù)技術有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711461712.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 數(shù)據(jù)處理設備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





