[發明專利]動態實時計算大數據量的六西格瑪數值的方法及系統有效
| 申請號: | 202010625440.1 | 申請日: | 2020-07-02 |
| 公開(公告)號: | CN111930729B | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 張昭;金熙 | 申請(專利權)人: | 上海微億智造科技有限公司;常州微億智造科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/23;G06F16/2455;G06F16/27 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 祁春倪;郭國中 |
| 地址: | 201100 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態 實時 計算 數據量 六西格瑪 數值 方法 系統 | ||
本發明提供了一種動態實時計算大數據量的六西格瑪數值的方法及系統,包括如下步驟:實時增量構建原始測量數據步驟:構建原始測量數據,并對原始測量數據去重,并列式數組存儲;篩選計算六西格瑪數值步驟:對列式數組存儲的數據篩選后進行六西格瑪數值計算。本發明通過對原始測量數據的實時增量采集和數據轉換,解決了傳統六西格瑪數值計算周期長和計算結果滯后的問題,極大程度縮減了大數據集場景下的六西格瑪數值計算時間;本發明加速了計算數據集的查找,篩選和組合,節約了數據的中間傳輸成本;本發明解決了不同數據維度組合和上卷場景下數據靈活加載和動態組合的問題;提供了一種新穎,高效的計算方法。
技術領域
本發明涉及數據計算領域,具體地,涉及一種動態實時計算大數據量的六西格瑪數值的方法及系統。
背景技術
現有的數據計算系統的中間傳輸成本高,計算周期長,計算結果滯后,數據處理效率低。
專利文獻為CN 106557370A的發明專利公開了一種基于實時統計數據的計算資源動態調度平臺,其特征在于,包括監控中心、調度中心、配置中心、注冊中心,監控中心包括監控模塊、數據庫,監控中心分別與調度中心、配置中心、注冊中心進行數據傳輸。其優點在于,合理調度硬件設備資源;能夠根據現有資源的實時使用情況去動態分配和調度部署不同的應用;提高資源利用率,提高業務處理速度。但是上述方案無法節約數據的中間傳輸成本。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種動態實時計算大數據量的六西格瑪數值的方法及系統。
根據本發明提供的一種動態實時計算大數據量的六西格瑪數值的方法,包括如下步驟:
實時增量構建原始測量數據步驟:構建原始測量數據,并對原始測量數據去重,并列式數組存儲;
篩選計算六西格瑪數值步驟:對列式數組存儲的數據篩選后進行六西格瑪數值計算。
優選地,所述實時增量構建原始測量數據步驟包括:
數據采集步驟:實時采集原始測量數據;
數據分布去重步驟:將所述原始測量數據落入分布式表中,并去重得到去重原始測量數據;
列式數組存儲步驟:對重原始測量數據列式和維度化存儲。
優選地,所述篩選計算六西格瑪數值步驟包括:
篩選步驟:動態篩選測量數據集;
數據預聚合歸并計算步驟:符合動態篩選條件的單一維度測量數據集構建數組,對單一維度預聚合的數組進行合并,形成組合后測量數據數組;
六西格瑪數值計算步驟:判斷組合后測量數據數組的數組長度,若判斷的數組長度為0,則直接返回數值不可定義的結果;如果數組長度為1,返回數據結果為六西格瑪數值。
優選地,所述數據采集步驟包括:
轉換步驟:Stream引擎實時采集原始測量數據并進行初步轉換;實時采集過程中對數據維護分布式鎖,對設定采集時間窗口里的數據進行去重操作。
優選地,所述數據分布去重步驟包括:
存儲步驟:原始測量數據在分布式引擎表中以文件塊的形式存儲;
索引步驟:對文件塊形式存儲的測量數據做索引操作;
去重步驟:對原始測量數據對應分布式表做全局去重操作。
根據本發明提供的一種動態實時計算大數據量的六西格瑪數值的系統,包括如下模塊:
實時增量構建原始測量數據模塊:構建原始測量數據,并對原始測量數據去重,并列式數組存儲;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海微億智造科技有限公司;常州微億智造科技有限公司,未經上海微億智造科技有限公司;常州微億智造科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010625440.1/2.html,轉載請聲明來源鉆瓜專利網。





