[發明專利]一種基于“數據追加情況下的平均分段并行”的列式存儲并行方法在審
| 申請號: | 201710545387.2 | 申請日: | 2017-07-06 |
| 公開(公告)號: | CN107329835A | 公開(公告)日: | 2017-11-07 |
| 發明(設計)人: | 蔣步星 | 申請(專利權)人: | 北京潤乾信息系統技術有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 追加 情況 平均 分段 并行 存儲 方法 | ||
技術領域
本發明涉及平均分段,更具體地來說,特別涉及一種基于“數據追加情況下的平均分段并行”的列式存儲并行方法。
背景技術
隨著全球對知識產權的重視,其中發明專利的發展趨勢越來越好,各行業各領域申請授權的發明專利的數量日趨龐大,特別是機械、生物、化工、醫藥、互聯網行業更是如此。面對這些大量的已經授權的發明專利,合理利用這些現有的已知技術顯的重中之重。于是出現了很多利用遺傳資源衍生出的發明專利,利用現有的已經授權的已知技術進行技術層面的改造升級等。本發明正是基于發明“一種數據追加情況下的平均分段并行方法”衍生出來的。
依據專利法的要求,陳述本發明專利直接來源是申請號為201710461630.2的發明專利,201710461630.2的發明專利在申請過程中保密,與本發明專利申請人同為“北京潤乾信息系統技術有限公司”,發明人蔣步星,發明人通過對201710461630.2的發明專利深入的研究,在原有專利技術層面上進行了突破。本發明專利應用于難以實現的列式平均分段。
由于單核CPU速度提升的局限性,提升計算機速度的主要途徑是使用多核CPU。多核CPU的普及對數值計算的發展產生了歷史性的改變,由于多核和單核CPU設計理念的不同,單核CPU上運行良好的軟件或者以前的算法不能使多核CPU發揮其最大效能,要想高效利用多核CPU,就必須改進原有的老程序,融進并行算法的思想。把原來串行的計算改成并行的計算,如果要并行計算,就需要每個線程分別處理一部分數據,所以要把數據分段給各個線程。
列式存儲的優點是極高的裝載速度(最高可以等于所有硬盤IO的總和,基本是極限了)、而大數據運算中相當多的時間成本是消耗在數據裝載環節,對于不再修改的歷史數據采用列式存儲能夠大幅提高運算性能。
列存和并行都能提高性能,但是列存不容易實現靈活的分段并行。分段有兩個基本需求:每段數據量基本相同(每個線程處理能力相當),可以較靈活的分段(事先不能預測線程數)。行式存儲時相對容易實現分段,只要每條(也可以每N條)記錄后做一個結束標記,在分段時按字節數平均分成K段,然后在每段中尋找到結束標記后作為開始點即可。但列式存儲不能采用同樣的辦法,因為字段值是不定長的,導致某個列的分段點未必和另一個列的同樣的分段點同步落在同一條記錄上,這會錯位導致錯誤的數據。
目前現有技術列式存儲的分段采用分塊方案:分段必須以塊為單位,在塊內不再分段并行。這樣就會有一個矛盾,首先,分塊數不能太少了,否則就無法做到靈活分段了(只有5個分塊時不可能做出10個分段),按現代服務器的CPU(核)數,要有上百個分塊才能比較自由地平衡分段;但是,分塊數又不能太多,列數據在物理上會被拆成多個不連續的小塊,不僅使得遍歷代碼復雜很多,而且還會多讀入少量兩塊之間的無用數據,對于機械硬盤還有尋道時間問題,分塊數越多這些問題就越嚴重。只有分塊內列數據占用空間比讀入緩沖區大很多時,無用數據讀入時間和尋道時間的占比才會比較小,這就要求每個分塊中有足夠多的記錄數,也就是說,實現列存并行,數據量要足夠大才有意義,對于機械硬盤(包括用機械硬盤構成的陣列)上一般得達到單機單表十億記錄、空間約在百G以上。規模較小的數據量就不容易獲得并行計算的性能提升,而特別適合使用列存的多維分析業務的數據量就處于這種尷尬的規模中。另外,分塊容量在數據追加前就要確定下來,隨著數據的不斷追加,相鄰分塊卻不能物理上合并,分塊數就會越來越多,這將給管理造成不少麻煩,需要可擴展的空間專門存儲分塊的索引信息。
上述列式存儲的分段方法有諸多問題,針對這些問題本發明創造基于“一種數據追加情況下的平均分段并行方法”研發出的列式存儲并行方法。
發明內容
為了克服前述問題,本發明的目的在于提供一種基于“數據追加情況下的平均分段并行”的列式存儲并行方法。
一種基于“數據追加情況下的平均分段并行”的列式存儲并行方法,使用步驟為:
1.在列式存儲業務系統中,在文件最前面創建q(指列數,每個列對應一個段索引區)個固定長度的段索引區,這樣能保證后面的并行分段不會錯位,每一條記錄都是完整準確的,下面的操作這q個段索引區文件同時同步進行,保證記錄的完整性;
2.在文件每個段索引區中創建成n個記段的起始位置以及段長度的字段組;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京潤乾信息系統技術有限公司,未經北京潤乾信息系統技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710545387.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





