[發明專利]一種數據處理方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 201910085532.2 | 申請日: | 2019-01-29 |
| 公開(公告)號: | CN111488364A | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 苗圣法;劉勛;陳春璐;陳曉安;胡澤柱 | 申請(專利權)人: | 順豐科技有限公司 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/21 |
| 代理公司: | 北京志霖恒遠知識產權代理事務所(普通合伙) 11435 | 代理人: | 成丹 |
| 地址: | 518061 廣東省深圳市南山區學府路(以南)*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種數據處理方法,其特征在于,包括以下步驟:
按設定的不同的分割尺度數據對源數據進行統計形成多尺度元數據并存入多尺度元數據庫;
根據輸入的源數據更新所述多尺度元數據庫。
2.根據權利要求1所述的數據處理方法,其特征在于,所述根據輸入的源數據更新多尺度元數據庫包括以下步驟:
根據上一輸入周期內的源數據的多尺度元數據和當前輸入周期內源數據的數據屬性信息統計當前輸入周期內源數據的多尺度元數據;
根據當前輸入周期內的源數據的多尺度元數據更新多尺度元數據庫;
所述數據屬性信息包括數據來源信息、數據的接入周期信息、表名稱信息、字段名稱信息、字段含義信息、字段類型信息、字段結果及代表的含義信息。
3.根據權利要求2所述的數據處理方法,其特征在于,所述根據輸入的源數據更新多尺度元數據庫包括以下步驟:
驗證當前輸入周期內的源數據與上一輸入周期內的源數據的一致性,輸出驗證結果,所述驗證結果包括驗證一致結果和驗證不一致結果;
響應于驗證不一致結果,啟動異常調查;
響應于異常調查結果統計當前輸入周期內的源數據的多尺度元數據;
根據當前輸入周期內的源數據的多尺度元數據更新多尺度元數據庫。
4.根據權利要求3所述的數據處理方法,其特征在于,所述響應于異常調查結果統計當前輸入周期內的源數據的多尺度元數據具體包括以下步驟:
根據上一周期內源數據的多尺度元數據和當前輸入源數據的數據屬性信息:
判斷異常調查結果為數據缺失時,復原缺失數據,更新當前輸入源數據的數據屬性信息后,以更新的數據屬性信息統計當前輸入周期內源數據的多尺度元數據;
判斷異常調查結果為數據異常時,刪除或用默認值替代異常數據后,更新當前輸入源數據的數據屬性信息,以更新的數據屬性信息統計當前輸入周期內源數據的多尺度元數據;
判斷異常調查結果為數據特殊時,更新分割尺度數據,以更新的分割尺度數據和當前輸入源數據的數據屬性信息統計當前輸入周期內源數據的多尺度元數據。
5.根據權利要求3所述的數據處理方法,其特征在于,所述驗證當前輸入周期內的源數據與上一輸入周期的源數據的一致性,輸出驗證結果具體包括以下步驟:
將源數據內的字符型數據轉化為數值;
確定源數據內各列數據的密度分布圖,所述各列數據對應有不同的字段;
響應于所述密度分布圖為單一正態分布圖,使用T-test算法驗證當前輸入周期內的源數據與上一輸入周期的源數據的屬于相同字段的數據列的擬合度;
響應于所述密度分布圖為多態分布圖,對源數據的各列數據進行離散化處理得到離散數據;使用卡方驗證函數驗證當前輸入周期內的源數據與上一輸入周期的源數據的屬于相同字段的數據列的離散數據的擬合度;所述離散數據包括離散值和與所述離散值對應的數據的數量;
響應于所述擬合值大于等于設定誤差閥值,輸出驗證不一致結果。
6.一種數據處理裝置,其特征在于,包括:
多尺度元數據庫,配置用于存儲多尺度元數據;
決策模塊,配置用于設定若干分割尺度數據和根據輸入源數據更新多尺度元數據庫;
所述多尺度元數據由不同的分割尺度數據對源數據進行統計形成。
7.根據權利要求6所述的數據處理裝置,其特征在于,還包括元數據庫,配置用于存儲所述多尺度元數據庫的鏡像結果;
所述元數據庫設有對應各個分割尺度數據的增加單元、刪除單元、查詢單元和修改單元。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于順豐科技有限公司,未經順豐科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910085532.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:運算方法、裝置及相關產品
- 下一篇:節溫器控制裝置及節溫器控制方法





