[發明專利]一種基于格式數據集的分布式數據存儲與計算方法有效
| 申請號: | 201310752910.0 | 申請日: | 2013-12-31 |
| 公開(公告)號: | CN103678716B | 公開(公告)日: | 2017-01-04 |
| 發明(設計)人: | 鄒瑜斌;張昕;胡斌;須成忠;張帆;穆德全 | 申請(專利權)人: | 中國科學院深圳先進技術研究院;深圳市易行網交通科技有限公司;中科文訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙)44316 | 代理人: | 沈祖鋒,郝明琴 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 格式 數據 分布式 存儲 計算方法 | ||
技術領域
本發明涉及計算機技術領域,特別是涉及一種基于格式數據集的分布式
據存儲與計算方法。
背景技術
隨著大數據時代的到來,數據以爆炸式方式地增長,海量數據的計算不但可以服務社會或者企業的各個方面,為公眾的生活和企業的運營決策提供服務。而海量數據的有效利用很大程度上取決于對這些數據的有效存儲和快速計算,在通常情況下,數據的時效性非常強,如果不能在可以忍受的時間內完成數據計算并得到可靠的計算結果,那么數據的價值將會極大地降低。因此如何海量數據的有效計算成為了當前大數據研究的一個熱門課題。
當前,海量數據的統計計算不但受到了存儲介質的讀寫性能的影響,集群節點之間數據傳輸性能的影響,而且受制于計算的計算能力,總結起來有以下特點:1、數據量巨大,由于數據的維度、范圍、量級都不受限制,因此數據常常是TB級,甚至PB級。2、異常數據復雜,數據源多樣,且數據收集收到了設備缺陷、或者網絡信號等多種客觀并且不可預知的因素的影響,導致數據中存在大量不可預知的數據,異常數據的種類繁多。3、統計要求的條件多樣,常常夾雜著需要進行動態計算的過濾條件,導致計算復雜度高。
現有的方法通常是采用傳統的關系數據庫,基于SQL語言來進行計算,導致計算復雜度高,SQL腳本編寫困難,無法應對海量數據和復雜的異常數據。
發明內容
本發明采用一種基于格式數據集的分布式數據存儲與計算方法,極大地縮短了海量數據的統計計算的時間,易于計算規模的擴展,并且能夠有效地應對數據的多樣性和異常數據。
本發明采用如下方案:
一種基于格式數據集的分布式數據存儲與計算方法,用于快速執行統計計算,包括:
將計算統計的過濾條件轉換為一個規則集;
根據所述規則集,將原始無序的數據記錄轉換為格式數據集;
將轉換后的格式數據集進行存儲;
基于存儲的格式數據集,執行統計計算。
優選地,所述過濾條件包括不同記錄條件的點過濾條件和范圍過濾條件。
優選地,所述將原始無序的數據記錄轉換為格式數據集,包括:
根據所述規則集,將原始無序的數據記錄劃分為具有不同屬性的集合;
格式數據集中的每一個元素為一個格式對,對于一個格式數據對來說,格式數據為一組特定的屬性值,數據集為滿足該組特定屬性值,且按其中某些屬性值進行排序的數據記錄的集合;
點過濾條件的記錄屬性和范圍過濾條件中的記錄屬性,過濾掉原始數據集中無法推導出所涉及屬性值的數據記錄,形成格式數據集;
優選地,所述轉換后的格式數據集通過分布式存儲方法進行存儲。
優選地,所述基于存儲的格式數據集,執行統計計算,包括:
先執行點過濾過程:對于格式數據集中的每個格式數據對,檢查其格式數據對中的格式數據描述的屬性值,并以此過濾掉不符合點過濾條件的格式數據對,剩下的格式數據對組成中間結果數據集;對于中間結果數據集中的每個格式數據對,對數據集中的數據記錄進行所需要的統計計算,然后檢查計算結果,依據點過濾條件過濾格式數據對,剩下的格式數據對組成中間結果數據集;
然后執行范圍過濾:對于中間結果數據中的每個格式數據,使用二分查找算法,找到數據集中的一組滿足范圍過濾條件的數據記錄,組成中間結果數據集;中間結果數據集中的所有格式數據集就是滿足要求的點過濾條件和范圍過濾條件的數據記錄;對中間數據集中的每個格式數據集中的數據記錄執行指定的計算操作,輸出結果。
優選地,所述統計計算采用分布式計算來執行點過濾過程、范圍過濾過程,統計計算,分布在不同的計算節點并行執行。
本發明公開的一種基于格式數據集的分布式數據存儲于計算方法,通過將計算統計的過濾條件轉換為一個規則集;根據規則集,將原始無序的數據記錄轉換為格式數據集;將轉換后的格式的數據集進行存儲;基于存儲的格式數據集,執行統計計算。極大地縮短了海量數據的統計計算的時間,易于計算規模的擴展,并且能夠有效地應對數據的多樣性和異常數據。
附圖說明
圖1為本發明實施例1提供的一種基于格式數據集的分布式數據存儲于計算方法的流程圖;
圖2為本發明實施例1統計計算需求的條件;
圖3為本發明實施例1統計計算項。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院;深圳市易行網交通科技有限公司;中科文訊科技(深圳)有限公司,未經中國科學院深圳先進技術研究院;深圳市易行網交通科技有限公司;中科文訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310752910.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





