[發明專利]數據統計的方法、裝置及服務器在審
| 申請號: | 202110887165.5 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113569200A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 楊杰 | 申請(專利權)人: | 北京金山云網絡技術有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06F16/27 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 徐麗 |
| 地址: | 100000 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 統計 方法 裝置 服務器 | ||
1.一種數據統計的方法,其特征在于,包括:
獲取分布式數據庫中待統計數據集;
將所述待統計數據集中所包括的數據在預設的多個數據節點中進行分片存儲;
對于每個所述數據節點所存儲的數據,按照預設的分布式蓄水池算法進行采樣處理,得到所述待統計數據集對應的抽樣集;
根據所述抽樣集,以及預設的直方圖參數構建直方圖,以對所述待統計數據集進行統計分析。
2.根據權利要求1所述的方法,其特征在于,將所述待統計數據集中所包括的數據在預設的多個數據節點中進行分片存儲的步驟,包括:
獲取預設的所述數據節點的數量,按照所述數量將所述待統計數據集中所包括的數據分成多個數據流,其中,所述數據流的數量與所述數據節點的數量一致;
將所述數據流分別在所述數據節點中進行分片存儲。
3.根據權利要求1所述的方法,其特征在于,對于每個所述數據節點所存儲的數據,按照預設的分布式蓄水池算法進行采樣處理,得到所述待統計數據集對應的抽樣集的步驟,包括:
對于每個所述數據節點所存儲的數據,按照預設的第一蓄水池算法進行并行采樣,得到每個所述數據節點對應的采樣集;
從每個所述采樣集中,按照預設的第二蓄水池算法依次進行采樣,得到所述待統計數據集對應的抽樣集。
4.根據權利要求3所述的方法,其特征在于,按照預設的第一蓄水池算法進行并行采樣,得到每個所述數據節點對應的采樣集的步驟,包括:
獲取預先設置的數據量;
按照預設的所述第一蓄水池算法從每個所述數據節點所存儲的數據中并行抽取與所述數據量匹配的數據,以得到每個所述數據節點對應的采樣集。
5.根據權利要求4所述的方法,其特征在于,從每個所述采樣集中,按照預設的第二蓄水池算法依次進行采樣,得到所述待統計數據集對應的抽樣集的步驟,包括:
基于預先設置的所述數據量,從每個所述采樣集中依次等概率不放回地抽取一個數據;
將抽取的所述數據加入到所述抽樣集中,直至所述抽樣集中的數據的數量滿足預先設置的所述數據量。
6.根據權利要求5所述的方法,其特征在于,將抽取的所述數據加入到所述抽樣集中,直至所述抽樣集中的數據的數量滿足預先設置的所述數據量的步驟,包括:
如果所述采樣集的數量大于所述數據量,當所述抽樣集中的數據量達到預先設置的所述數據量時,將抽取的所述數據,隨機替換所述抽樣集中的任一一個數據,以保證從每個所述采樣集中依次等概率不放回地抽取一個數據,且,所述抽樣集中的數據的數量滿足預先設置的所述數據量。
7.根據權利要求1所述的方法,其特征在于,根據所述抽樣集,以及預設的直方圖參數構建直方圖的步驟,包括:
按照預先設置的排序規則對所述抽樣集中的數據進行排序,得到所述抽樣集對應的排序抽樣集;
獲取預設的直方圖參數;
根據所述排序抽樣集,以及預設的所述直方圖參數構建直方圖;其中,所述直方圖參數包括以下參數至少之一:所述直方圖的桶數,所述直方圖的桶深,以及,與所述排序抽樣集對應的行數。
8.一種數據統計的裝置,其特征在于,包括:
獲取模塊,用于獲取分布式數據庫中待統計數據集;
存儲模塊,用于將所述待統計數據集中所包括的數據在預設的多個數據節點中進行分片存儲;
采樣模塊,用于對于每個所述數據節點所存儲的數據,按照預設的分布式蓄水池算法進行采樣處理,得到所述待統計數據集對應的抽樣集;
構建模塊,用于根據所述抽樣集,以及預設的直方圖參數構建直方圖,以對所述待統計數據集進行統計分析。
9.一種服務器,其特征在于,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執行的計算機可執行指令,所述處理器執行所述計算機可執行指令以實現權利要求1至7任一項所述的方法。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機可執行指令,所述計算機可執行指令在被處理器調用和執行時,計算機可執行指令促使處理器實現權利要求1至7任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山云網絡技術有限公司,未經北京金山云網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110887165.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙向異步同步先進先出適配器
- 下一篇:一種基于林業信息共享的智能系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





