[發明專利]一種基于數據分析的分布式數據清洗系統及方法有效
| 申請號: | 202010709750.1 | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN111858572B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 張偉;徐志峰 | 申請(專利權)人: | 山東省科院易達科技咨詢有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06K9/62 |
| 代理公司: | 江蘇長德知識產權代理有限公司 32478 | 代理人: | 周天雯 |
| 地址: | 250000 山東省濟南市中國(山東)自由*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 分析 分布式 清洗 系統 方法 | ||
1.一種基于數據分析的分布式數據清洗系統,其特征在于:包括:
-多元異構數據庫,存儲用戶模型、元數據元素以及與其有對應關系的源數據元素;以及
-至少一個以上的處理單元,可操作來:
提取多元異構數據庫的用戶模型、元數據元素以及源數據元素;
計算所述元數據元素與所述用戶模型的相關度,將所述元數據元素與所述用戶模型的相關度與預定的相關度閾值進行比較,選出相關度大于所述預定的相關度閾值的元數據元素作為初始元數據元素;
選擇所述用戶模型的至少一個以上的數據屬性項作為關系參數,所述關系參數對應的預設加權值,提取與所述初始元數據元素具有公共關系的元數據元素組成集合C,集合C中的元數據元素提取對應的源數據元素組成集合D,在集合D中選擇與所述初始元數據元素具有共同的關系參數的所述源數據元素,并計算所述源數據元素與初始元數據元素的傾向度,選擇傾向度大于預定傾向度閾值的所述源數據元素,并提取所述源數據元素對應的所述元數據元素與所述初始元數據元素共同組成元數據集Q;
選擇至少一個以上的數據清洗工具以及至少一個以上的預定的數據清洗規則對元數據集Q中的所述元數據元素進行清洗,清洗后的元數據元素導入異構多源數據庫保存;
迭代執行上述步驟,以完成數據清洗。
2.根據權利要求1所述的基于數據分析的分布式數據清洗系統,其特征在于:所述處理單元包括采集模塊、處理模塊、元數據分類模塊、清洗模塊和輸出模塊,所述采集模塊用于采集多元異構數據庫的用戶模型、元數據元素以及源數據元素;
所述處理模塊用于對所述采集模塊所采集的所述元數據元素與所述用戶模型的相關度,篩選初始元數據元素;
所述元數據分類模塊從所述采集模塊采集的元數據元素中篩選與所述初始元數據元素具有公共關系的元數據元素,從所述采集模塊采集的源數據元素中提取與所述與所述初始元數據元素具有公共關系的元數據元素對應的源數據元素,根據與所述初始元數據元素的傾向度篩選所述源數據元素,之后在采集模塊采集的元數據元素中提取與所述源數據元素對應的所述元數據元素組成元數據集Q;
所述清洗模塊對所述元數據集Q中的所述元數據元素進行清洗;
所述輸出模塊對所述清洗模塊清洗后的所述元數據元素輸出到多元異構數據庫儲存。
3.一種基于數據分析的分布式數據清洗方法,其特征在于:包括:
從多元異構數據庫中提取一個用戶模型;
從多元異構數據庫中提取任意一個元數據元素,計算所述元數據元素與所述用戶模型的相關度;
將所述元數據元素與所述用戶模型的相關度與預定的相關度閾值進行比較,如果相關度大于預定的相關度閾值,則執行下一步驟,反之,重復上一步驟直至選出相關度大于所述預定的相關度閾值的元數據元素作為初始元數據元素;
選擇所述用戶模型的至少一個以上的數據屬性項作為關系參數,所述關系參數對應的預設加權值,提取與所述初始元數據元素具有公共關系的元數據元素組成集合C,集合C中的元數據元素提取對應的源數據元素組成集合D,在集合D中選擇與所述初始元數據元素具有共同的關系參數的所述源數據元素,并計算所述源數據元素與初始元數據元素的傾向度,選擇傾向度大于預定傾向度閾值的所述源數據元素,并提取所述源數據元素對應的所述元數據元素與所述初始元數據元素共同組成元數據集Q;
選擇至少一個以上的數據清洗工具以及至少一個以上的預定的數據清洗規則對元數據集Q中的所述元數據元素進行清洗,清洗后的元數據元素返回異構多源數據庫保存;
依照除第一個步驟以外的其他步驟進行迭代得到若干個已清洗的元數據集Q1,Q2,...,Qi,...Qn,完成數據清洗。
4.根據權利要求3所述的基于數據分析的分布式數據清洗方法,其特征在于:所述依照除第一個步驟以外的其他步驟進行迭代中每一次迭代完成后屏蔽已經選出的元數據集Q中的所有元數據元素。
5.根據權利要求3所述的基于數據分析的分布式數據清洗方法,其特征在于:所述依照除第一個步驟以外的其他步驟進行迭代中每一次迭代完成后屏蔽已經選擇的數據屬性項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省科院易達科技咨詢有限公司,未經山東省科院易達科技咨詢有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010709750.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





