[發(fā)明專利]一種面向大數(shù)據(jù)處理的數(shù)據(jù)處理方法和裝置有效
| 申請?zhí)枺?/td> | 201410217394.6 | 申請日: | 2014-05-21 |
| 公開(公告)號: | CN104008153B | 公開(公告)日: | 2017-09-26 |
| 發(fā)明(設(shè)計)人: | 亓開元;辛國茂;趙仁明;房體盈 | 申請(專利權(quán))人: | 浪潮(北京)電子信息產(chǎn)業(yè)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 北京安信方達知識產(chǎn)權(quán)代理有限公司11262 | 代理人: | 王丹,栗若木 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 數(shù)據(jù)處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體涉及一種面向大數(shù)據(jù)處理的數(shù)據(jù)處理方法和裝置。
背景技術(shù)
隨著人類社會全面進入信息時代,數(shù)據(jù)成為與水、石油同等重要的戰(zhàn)略資源。通過挖掘海量數(shù)據(jù),能夠使政府和企業(yè)的運行決策建立在更加科學(xué)的依據(jù)基礎(chǔ)上,提高決策效率、危機應(yīng)對能力和公共服務(wù)水平。
大數(shù)據(jù)雖然極具價值,但由于規(guī)模巨大,面臨著持續(xù)可擴展問題。例如,數(shù)據(jù)倉庫中常用的記錄某個對象行為的歷史狀態(tài)數(shù)據(jù),在大數(shù)據(jù)時代隨著對象數(shù)量(如客戶)的急速增加,以及每個處理對象行為(如客戶交易)的迅速增加,規(guī)模成爆炸式增長,給處理環(huán)境的CPU、存儲、網(wǎng)絡(luò)帶來的巨大壓力。其中,CPU通過水平擴展能夠滿足大數(shù)據(jù)處理需求,而磁盤讀寫IO和網(wǎng)絡(luò)傳輸IO由于機械部件、工藝技術(shù)、物理介質(zhì)等條件限制,成為制約大數(shù)據(jù)處理的主要瓶頸。為此,采用壓縮方式進行大數(shù)據(jù)的存儲和傳輸,以犧牲少量CPU時間解壓縮換取IO時間,成為提高大數(shù)據(jù)處理性能的一個必然選擇。
針對上述需求,當前的主流大數(shù)據(jù)處理系統(tǒng),如Hadoop、HBase、Hive等,都支持在應(yīng)用中Gzip、LZO、Snappy等壓縮方式,然而,由于編解碼方式和解壓縮方法不同,各種方法的壓縮率、編解碼速度各有不同,遵循著壓縮效果越好壓縮/解壓縮效率越低這一矛盾統(tǒng)一的客觀規(guī)律。因此,針對不同網(wǎng)絡(luò)帶寬、磁盤速度等的大數(shù)據(jù)處理環(huán)境,以及不同負載特征的大數(shù)據(jù)應(yīng)用場景,應(yīng)該如何選擇是否應(yīng)該采用壓縮方法,采用何種壓縮方式,是大數(shù)據(jù)設(shè)計面臨的一個關(guān)鍵問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于,本發(fā)明提出一種面向大數(shù)據(jù)處理的數(shù)據(jù)處理方法,通過計算各種壓縮方式在不同運行環(huán)境、不同負載場景下的性能指標指導(dǎo)壓縮方式的選擇,從而降低處理延遲。
為了解決上述問題,本發(fā)明提供一種面向大數(shù)據(jù)的數(shù)據(jù)處理方法,該方法包括:
獲取處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù);
選擇所述處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù)對應(yīng)的壓縮方式;
根據(jù)所選擇的壓縮方式對數(shù)據(jù)進行處理;
所述處理環(huán)境數(shù)據(jù)包括網(wǎng)絡(luò)傳輸?shù)男阅苤笜撕痛疟P的性能指標;
所述負載場景數(shù)據(jù)包括讀操作比例和寫操作比例,所述讀操作比例與寫操作比例相加為1。
優(yōu)選地,所述方法還包括:
選擇所述處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:
在網(wǎng)絡(luò)傳輸?shù)男阅苤笜藶榈陀?Gbps且磁盤的性能指標為低于200MBps時、在CPU利用率不足50%時,使用壓縮方法進行讀、寫操作。
優(yōu)選地,所述方法還包括:
選擇所述處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:
在網(wǎng)絡(luò)傳輸?shù)男阅苤笜藶楦哂?0Gbps且磁盤的性能指標為高于600MBps時,使用壓縮方法進行讀操作、不進行寫操作。
優(yōu)選地,所述方法還包括:
使用壓縮方法進行讀、寫操作包括:
選擇使用Snappy壓縮方式進行寫操作,選擇使用LZO壓縮方式進行讀操作。
優(yōu)選地,所述方法還包括:
選擇所述處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:
在所述讀操作的比例在90%以上時,選擇使用Snappy或LZO壓縮方式。
優(yōu)選地,所述方法還包括:
選擇所述處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:
在網(wǎng)絡(luò)傳輸?shù)男阅苤笜藶榈陀?Gbps時,選擇使用LZO壓縮方式。
優(yōu)選地,所述方法還包括:選擇所述處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:
在網(wǎng)絡(luò)傳輸?shù)男阅苤笜藶楦哂?0Gbps時,選擇使用Snappy壓縮方式。
為了解決上述問題,本發(fā)明還提供一種面向大數(shù)據(jù)的數(shù)據(jù)處理裝置,該裝置包括:
獲取模塊,用于獲取處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù);所述處理環(huán)境數(shù)據(jù)包括網(wǎng)絡(luò)傳輸?shù)男阅苤笜撕痛疟P的性能指標;所述負載場景數(shù)據(jù)包括讀操作比例和寫操作比例,所述讀操作比例與寫操作比例相加為1;
選擇模塊,用于選擇所述處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù)對應(yīng)的壓縮方式;
處理模塊,用于根據(jù)所選擇的壓縮方式對數(shù)據(jù)進行處理。
優(yōu)選地,所述裝置還具有以下特點:
選擇所述處理環(huán)境數(shù)據(jù)及負載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:
在網(wǎng)絡(luò)傳輸?shù)男阅苤笜藶榈陀?Gbps且磁盤的性能指標為低于200MBps時、在CPU利用率不足50%時,使用壓縮方法進行讀、寫操作。
優(yōu)選地,所述裝置還具有以下特點:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮(北京)電子信息產(chǎn)業(yè)有限公司,未經(jīng)浪潮(北京)電子信息產(chǎn)業(yè)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410217394.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種救生艇上的海水淡化器
- 下一篇:一種治療小兒麻痹癥的中藥組合物
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





