[發明專利]一種按照hash規則切分數據使其更均勻的方法在審
| 申請號: | 202110942746.4 | 申請日: | 2021-08-17 |
| 公開(公告)號: | CN113672619A | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 趙偉;李南鋒 | 申請(專利權)人: | 天津南大通用數據技術股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458 |
| 代理公司: | 天津企興智財知識產權代理有限公司 12226 | 代理人: | 安孔川 |
| 地址: | 300384 天津市濱海新區華*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 按照 hash 規則 切分 數據 均勻 方法 | ||
1.一種按照hash規則切分數據使其更均勻的方法,其特征在于包括以下步驟:
S1、對待劃分數據進行采樣,采樣過程中記錄下相同的待劃分數據出現的次數;
S2、對采樣后的數據按照出現次數進行排序,形成topN數據信息;
S3、結合配置內存大小和數據數量進行hash桶數量評估;
S4、根據hash桶數量及topN數據信息通過哈希算法切分為數據塊文件,統計每個數據塊文件中數據的平均數據條數;
S5、根據設定的條件,判斷每個數據塊文件中數據集的平均數據條數是否符合要求,若符合要求則重復步驟S2-S4,否則完成切分。
2.根據權利要求1所述的一種按照hash規則切分數據使其更均勻的方法,其特征在于,步驟S1中采樣時按比例進行采樣,采樣過程具體包括以下步驟:
第一步,確定采樣條數:根據數據總量,取數據總量的10%作為要采樣的總條數;
第二步,計算采樣點:將總數據條數按照100份進行分配,選取每一份數據條數為起始位置,作為采樣的起始點;
第三步,計算每個采樣點的需采樣的數據條數:將計算出來的采樣數據條數除以100,得到每個采樣點需要采樣的數據條數。
3.根據權利要求1所述的一種按照hash規則切分數據使其更均勻的方法,其特征在于,步驟S3中進行hash桶數量評估通過以下評估公式得到:
hash桶數量=(總數據條數*(1-數據重復率))/內存中能裝下的數據條數。
4.根據權利要求3所述的一種按照hash規則切分數據使其更均勻的方法,其特征在于,步驟S4中哈希算法切分為數據塊文件的過程如下:
從topN數據中取出一條數據,通過哈希算法計算數據的hash值,使用crc32算法得到一個整數值;把整數值除以hash桶數量,得到桶的編號,根據桶的編號,把數據放入對應的桶中。
5.根據權利要求1所述的一種按照hash規則切分數據使其更均勻的方法,其特征在于,步驟S5中設定的條件為:超出平均數據條數倍數的數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津南大通用數據技術股份有限公司,未經天津南大通用數據技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110942746.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種煙氣濕度檢測裝置和方法
- 下一篇:超導電纜振動試驗與抗振性能測試方法





