[發明專利]一種基于話單數據的壓縮和存儲方法在審
| 申請號: | 201310648184.8 | 申請日: | 2013-12-03 |
| 公開(公告)號: | CN103631927A | 公開(公告)日: | 2014-03-12 |
| 發明(設計)人: | 朱洪波;沈順;盧捍華;朱翀;徐蔓青;錢超 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 汪旭東 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 壓縮 存儲 方法 | ||
技術領域
本發明涉及數據壓縮和數據庫領域,特別涉及一種基于話單數據的壓縮和存儲方法。
背景技術
如今人們的日常生活已經越來越離不開移動通信,而隨之產生大量數據也得到了更多的關注。就中國移動的業務支撐能力而言,在業務量方面,用戶總數超過7億,全年受理營業300多億次,完成統計報表數億張;在支撐能力方面,全年處理幾萬億張計費話單,幾千萬張結算單,全網OLTP處理能力接近40億tpmC,存儲的有效容量將近20PB。面對如此之大的數據量,傳統的存儲方式和處理策略存在很大的局限性與滯后性。如何找到一種對大規模話單數據進行存儲和處理的方式,已經成為三大運營商的當務之急。
另一方面,列存數據庫作為一個新興的技術,得到越來越多學者的注意。然而,關于各種通用數據壓縮算法在列存數據庫中的具體實現和應用,國內尚處于起步階段。在國外,各種開源的列存數據庫由于受到資金、人力資源和實踐檢驗的約束,導致其自身的設計與實現均存在著各種各樣的缺陷。更是沒有人將列存數據庫應用到具有特定數據結構的大規模的數據存儲上。
綜上兩點,運營商產生大量的話單數據得不到高效的存儲和處理,列存數據庫系統有著其自身的優勢但是沒有在存儲大規模數據上得到具體的應用。因此,如何為話單數據設計出適合其存儲和處理的列存數據庫,并且采用特定的壓縮算法來進一步減少數據存儲所需的空間,而且可以高效快速的讀取和處理數據,已經成為一個新型的研究方向下的技術難題。
發明內容
為解決上述技術問題,本發明所采用的技術方案如下:
一種基于話單數據的壓縮和存儲方法,由列存儲系統實現,列存儲系統包括壓縮模塊、存儲模塊和處理模塊,其壓縮和存儲方法如下:
步驟一、壓縮模塊對話單數據需要壓縮的屬性列采取不同的輕量級壓縮算法;
步驟二、由存儲模塊將經過壓縮模塊處理后的話單數據存入列存數據庫,列存數據庫的數據結構包括壓縮區和未壓縮區,壓縮區將采用不同輕量級壓縮算法壓縮后的屬性列分開存儲,未壓縮區則將不需要壓縮的屬性列直接存儲;
步驟三、處理模塊對列存數據庫的數據進行SQL操作,對未壓縮區的數據直接進行SQL操作;對壓縮區的數據進行SQL操作時,可以解壓后直接進行SQL操作,也可以不解壓間接進行SQL操作;當不進行解壓時,其SQL的間接操作方法如下:
(1)通過操作算法選擇器對壓縮區不同屬性列采用的壓縮算法進行分析,
(2)通過轉換器將SQL語句轉換成相應的可以用于該壓縮算法的語句。
步驟一中所述的輕量級壓縮算法可以為RLE行程編碼、差值壓縮或粗粒度字典壓縮。
本發明針對運營商實際存在的問題提出了一種有效的解決方案,并且適用于各大運營商處理其大量的話單數據,大大減少了數據存儲所需的空間,在數據存儲上引入了列存數據庫,由于其自身存儲的特殊性,與各種輕量級壓縮算法可以完美的結合起來,由于采用輕量級壓縮算法,可以對壓縮態的數據直接進行SQL操作,大大提高了數據的處理速度。
附圖說明
圖1列存儲系統的整體構架圖。
圖2壓縮模塊的壓縮流程圖。
圖3存儲模塊列存數據庫的數據結構。
圖4處理模塊的處理流程圖。
具體實施方式
下面結合說明書附圖對本發明作進一步的詳細說明。
本發明針對話單數據設計了一種基于話單數據的壓縮和存儲方法,該方法由列存儲系統實現,該系統的整體構架如附圖1所示,由三個模塊構成,分別為壓縮模塊、存儲模塊、處理模塊。本方法針對運營商產生的大規模的話單數據,采用多種輕量級壓縮算法從語法和語義分別對數據進行壓縮,將數據存儲于特定的列存數據庫。并支持多種數據處理語言對壓縮態下的數據進行查詢篩選等操作。
壓縮模塊分裝了對各種數據的壓縮算法,并且與存儲模塊中的數據結構緊密聯系。存儲模塊設計了一種特定的列存數據庫有效地組織和保存算法生成的壓縮值。處理模塊用于將一般的SQL語句轉換成可以適用于各種輕量級壓縮算法的語句,以便在未解壓的情況下就能對壓縮態數據進行操作。SQL是Structured?Query?Language的英文縮寫,中文名為結構化查詢語言,是一種對數據庫進行操作的語言。該系統設計的好處在于:將三個模塊獨立分裝,從而保證了各個模塊之間的低耦合度。比如當數據壓縮方式發生變化的時候,我們只需要修改壓縮運算庫對外提供的各種接口就可以保證其他模塊不需要任何改動了。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310648184.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電磁閥式節能灶臺的智能檢測裝置
- 下一篇:一種更鞋柜
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





