[發明專利]一種基于數據分析的分布式數據清洗系統及方法有效
| 申請號: | 202010709750.1 | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN111858572B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 張偉;徐志峰 | 申請(專利權)人: | 山東省科院易達科技咨詢有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06K9/62 |
| 代理公司: | 江蘇長德知識產權代理有限公司 32478 | 代理人: | 周天雯 |
| 地址: | 250000 山東省濟南市中國(山東)自由*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 分析 分布式 清洗 系統 方法 | ||
本發明涉及一種基于數據分析的分布式數據清洗系統,該基于數據分析的分布式數據清洗系統,包括多元異構數據庫,存儲用戶模型、元數據元素以及與其有對應關系的源數據元素;以及至少一個以上的處理單元,可操作來:提取多元異構數據庫的用戶模型、元數據元素以及源數據元素;選出初始元數據元素;選擇所述用戶模型的至少一個以上的數據屬性項作為關系參數,所述關系參數對應的預設加權值,提取元數據集Q;對元數據集Q中的所述元數據元素進行清洗;本發明基于用戶模型配合關系參數的選定能夠篩選多個類別的元數據集,對于各個類別的元數據集可以選定針對的清洗規則,提高清洗速度,具有較高的靈活度和實用性,提高了數據清洗的可控性。
技術領域
本發明屬于人工智能數據處理技術領域,具體涉及一種基于數據分析的分布式數據清洗系統。
背景技術
異構數據庫系統是相關的多個數據庫系統的集合,可以實現數據的共享和透明訪問,幾個數據庫系統在加入異構數據庫系統之前本身就已經存在,擁有自己的數據庫管理系統、外構數據庫的各個組成部分具有自身的自治性,實現數據共享的同時,每個數據庫系統仍有自己的應用特性、完整性控制和安全性控制;
----異構數據庫系統的目標在于實現不同數據庫之間的數據信息資源、硬件設備資源和人力資源的合并和共享。其中關鍵的一點就是以局部數據庫模式為基礎,建立全局的數據模式或全局外視圖。這種全局模式對于建立高級的決策支持系統尤為重要。
----大型機構在許多地點都有分支機構,每個子機構的數據庫中都有著自己的信息數據,而決策制訂人員一般只關心宏觀的、為全局模式所描述的信息。建立在數據倉庫技術基礎上的異構數據庫全局模式的描述是一種好的解決方案。數據倉庫可以從異構數據庫系統中的多個數據庫中收集信息,并建立統一的全局模式,同時收集的數據還支持對歷史數據的訪問,用戶通過數據倉庫提供的統一的數據接口進行決策支持的查詢;
在異構數據庫的基礎上增加了數據來源的多元化構成多元異構數據庫,多元異構數據庫相較于普通異構數據庫更增加了來源多元化的數據特性,因此在數據的多元復雜程度上更上一層,對于這樣的多元異構數據庫如果直接通過清洗工具進行清洗,那么預定的清洗規則無法普遍適用于多元異構數據庫中的數據,對于復雜多元的數據的清洗會導致數據屬性丟失,破壞數據的完整性,清洗速度慢,而且清洗的效果也是不可預估的。
發明內容
本發明提供一種的基于數據分析的分布式數據清洗系統,解決相關技術中多元異構數據庫直接應用清洗工具清洗產生的技術問題。
根據本發明的一個方面,提供了一種基于數據分析的分布式數據清洗系統,包括:
-多元異構數據庫,存儲用戶模型、元數據元素以及與其有對應關系的源數據元素;以及
-至少一個以上的處理單元,可操作來:
提取多元異構數據庫的用戶模型、元數據元素以及源數據元素;
計算所述元數據元素與所述用戶模型的相關度,將所述元數據元素與所述用戶模型的相關度與預定的相關度閾值進行比較,選出相關度大于所述預定的相關度閾值的元數據元素作為初始元數據元素;
選擇所述用戶模型的至少一個以上的數據屬性項作為關系參數,所述關系參數對應的預設加權值,提取與所述初始元數據元素具有公共關系的元數據元素組成集合C,集合C中的元數據元素提取對應的源數據元素組成集合D,在集合D中選擇與所述初始元數據元素具有共同的關系參數的所述源數據元素,并計算所述源數據元素與初始元數據元素的傾向度,選擇傾向度大于預定傾向度閾值的所述源數據元素,并提取所述源數據元素對應的所述元數據元素與所述初始元數據元素共同組成元數據集Q;
選擇至少一個以上的數據清洗工具以及至少一個以上的預定的數據清洗規則對元數據集Q中的所述元數據元素進行清洗,清洗后的元數據元素導入異構多源數據庫保存;
迭代執行上述步驟,以完成數據清洗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省科院易達科技咨詢有限公司,未經山東省科院易達科技咨詢有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010709750.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





