[發明專利]一種海量不完整數據存儲及操作方法在審
| 申請號: | 201611081152.4 | 申請日: | 2016-11-30 |
| 公開(公告)號: | CN106599112A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 王妍;楊鈞;李俊;吳陽;宋寶燕 | 申請(專利權)人: | 遼寧大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 沈陽杰克知識產權代理有限公司21207 | 代理人: | 羅瑩 |
| 地址: | 110000 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海量 完整 數據 存儲 操作方法 | ||
技術領域
本發明涉及一種海量不完整數據存儲及操作方法,屬于大數據技術領域。
背景技術
近年來,隨著互聯網的快速發展,數據規模不斷增加,機器故障和人為因素會導致數據丟失,形成海量不完整數據,這些問題嚴重地制約著數據的應用價值因此,對屬性值有缺失的海量數據進行存儲和操作,具有現實意義。
目前對不完整數據往往采用屬性缺失填充法,但是這種預測填充的方法往往也會導致數據的錯誤。對于海量數據而言,先進行數據清洗再操作數據存在較多的弊端。首先,對海量數據進行清洗的時間開銷過大;其次,清洗的結果會受到不確定因素的影響,因此可能會引入新的“噪聲”導致清洗結果并不準確;最后,數據清洗還會帶來時效性問題,導致很多時效數據將失去意義。本文研究的是忽略數據清洗直接對海量不完整數據進行壓縮以及操作,而現有的方法多是對完備數據的處理。因此設計一種效率更高的適用于不完整數據處理方法:基于壓縮的海量不完整數據的存儲及操作方法(compression-based for operated method massive incompletedata,OM-MI),該方法可以快速地定位操作數據的壓縮位置,提高操作效率,還能夠大幅度地減少存儲空間。
而對于海量數據的壓縮,通常采用編碼字典的方式,此類方法通過對數據進行按列存儲,將對原始數據的處理轉化為對壓縮編碼位的操作。采用這種編碼字典方法可以實現無解壓直接查詢,提高了效率,但是增加了匹配字典和維護字典的代價,通常在操作不頻繁的系統中使用。就目前的海量不完整數據的存儲和操作方法而言,存在很多方面的不足。現有方法多是先清洗再處理,然而海量數據的清洗代價過大,同時導致數據丟失和時效性問題。因此,提出OM-MI方法,越過數據清洗直接對海量不完整數據進行操作,該方法可以大幅度地減少存儲空間,快速地定位壓縮文件,提高操作效率。
發明內容
本發明針對現有技術的不足,本發明提供一種海量不完整數據的存儲及操作方法。
本發明的是通過下述技術方案實現的:一種海量不完整數據存儲及操作方法,其特征在于,包括如下步驟:
(1)在海量不完整數據存儲時,對完整數據和不完整數據分別進行壓縮存儲,其實現步驟如下:
(1.1)對于一個海量數據庫系統,經過統計后獲得頻繁使用的數據操作語句,即查詢語句中WHERE后出現的謂詞,將這些謂詞分為確定性謂詞Def_Val和不確定謂詞Undef_val;
其中,確定性謂詞Def_val是指操作下發前已經確定的謂詞,一般為頻繁使用的固定范圍操作,如“Age>55”。確定性謂詞的屬性名和屬性值固定,作為一個整體出現。
不確定謂詞Undef_Val是指操作下發前不能完全確定的謂詞,一般為頻繁使用的不固定等值操作,這類謂詞某一屬性值是否存在于記錄中,如“Name=***”。不確定謂詞的屬性名固定,屬性值可變。
(1.2)獲得所有確定性謂詞和不確定謂詞后,在壓縮存儲時將每一條元組所滿足的不確定謂詞的屬性值和確定性謂詞作為索引存儲于數據中,同時將元組存放到相應的待壓縮緩存塊中;當某一緩存塊裝滿后,將其按順序進行壓縮存儲,并在數據庫中存儲元組所在壓縮文件地址;
索引表包括如下字段屬性:Id、Tp_Id、Undef_val_I……Undef_val_i、Def_Val、Block_Id、Delet_Flag、Com_Flag;
其中Id為索引序號;Tp_Id為元組序號;字段Undef_Val_i為當前元組第i個不確定謂詞的屬性值;字段Def_Val以位編碼形式存儲當前元組所滿足的確定性謂詞;
Block_Id為當前元組所在緩存塊的序號;
Delet_Flag為刪除標志位,數據需要刪除則置為1,否則為0;
Com_Flag為數據元組完整性標志位,元組時完整的則置為1,否則為0;
壓縮文件地址表包括如下字段屬性:Block_Id、Address;其中,Block_Id為當前元組所在緩存塊的序號,字段Address為緩存塊壓縮后對應的壓縮文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧大學,未經遼寧大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611081152.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





