[發明專利]一種數據血緣關系的生成方法和設備有效
| 申請號: | 202011265442.0 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112463978B | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 王新義;景鴻態 | 申請(專利權)人: | 上海逸迅信息科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/383;G06K9/62;G06F8/41;G06F8/53 |
| 代理公司: | 北京睿博行遠知識產權代理有限公司 11297 | 代理人: | 龔家驊 |
| 地址: | 201203 上海市浦東新區中國(上海)自*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 血緣關系 生成 方法 設備 | ||
本發明公開了一種數據血緣關系的生成方法和設備,該方法包括根據待分析數據庫中所有表的元數據信息獲取文本列數據和數值列數據,根據所述文本列數據獲取文本數據指紋,所述文本數據指紋是與所述文本列數據對應的唯一的定長數字片段,根據所述數值列數據獲取數值數據指紋,所述數值數據指紋是與所述數值列數據對應的唯一的定長數字片段,根據所述文本數據指紋和所述數值數據指紋生成所述待分析數據庫的數據血緣關系,實現了數據血緣關系生成效率的提升,以及提高了數據血緣關系生成的準確性。
技術領域
本申請涉及計算機技術領域,更具體地,涉及一種數據血緣關系的生成方法和設備。
背景技術
在數據的產生、加工、流轉、最終消亡的過程中,數據之間會存在一種關系,這種關系就是數據血緣(Data Lineage),數據血緣也稱為數據血統(Data Lineage)、數據起源(Data Provenance)、數據譜系(Data Pedigree)。在這個過程中數據傳遞方向就是數據血緣的流向。
利用數據血緣關系當異常發生時能追蹤到異常發生的原因,將風險控制到適當的水平;評估數據價值,通過數據的更新頻度及流轉路線可評估出數據的價值;通過血緣關系,可以方便的看到數據清洗的標準清單;當數據失去價值時可用于評估數據是否要歸檔或者銷毀。
現有技術中數據血緣關系的生成方式包括:
(一)基于概要設計和詳細設計:
概要設計和詳細設計用于指導開發人員開發,通過分析概要設計和詳細設計,概要設計中存在E-R圖,詳細設計中存在表結構,通過E-R和表結構、業務需求可抽象出表與字段之間的數據血緣。
其存在以下缺點:與人工操作高度耦合,脫離概要設計及詳細設計將失效。對于后續加工的數據無法挖掘數據血緣。
(二)基于代碼解析:
通過反編譯或者源代碼分析將持久化層的代碼進行解析,通過掃描代碼中的數據庫操作語句,根據操作語句即可挖掘數據血緣。
其存在以下缺點:準確度不高,局限性比較大,只能針對代碼無法處理脫離代碼的數據。
(三)基于SQL解析:
利用SQL腳本代碼,提取到規則的SQL語句,經過一系列的清洗、語法分析、生成抽象語法樹,通過對抽象語法樹遍歷得到分析結果。抽象語法樹中保存有表及字段等信息,通過分析樹中的表與表、表之間字段,即可解析出表與字段之間的血緣關系。
其存在以下缺點:準確度依賴于SQL解析工具及SQL標準程度,需人工干預處理,處理范圍窄。
因此,如何提高生成數據血緣關系時的效率和準確性,是目前有待解決的技術問題。
發明內容
本發明提供一種數據血緣關系的生成方法和設備,用以解決現有技術中準確度依賴于SQL解析工具,且還需要人工干預以及效率低下的技術問題,該方法包括:
根據待分析數據庫中所有表的元數據信息獲取文本列數據和數值列數據;
根據所述文本列數據獲取文本數據指紋,所述文本數據指紋是與所述文本列數據對應的唯一的定長數字片段;
根據所述數值列數據獲取數值數據指紋,所述數值數據指紋是與所述數值列數據對應的唯一的定長數字片段;
根據所述文本數據指紋和所述數值數據指紋生成所述待分析數據庫的數據血緣關系。
優選地,根據所述文本數據指紋和所述數值數據指紋生成所述待分析數據庫的數據血緣關系,具體為:
根據所述文本數據指紋確定不同表之間列與列的待處理文本數據指紋;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海逸迅信息科技有限公司,未經上海逸迅信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011265442.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于建筑施工管件的鉆孔裝置
- 下一篇:一種機床腳的樹脂砂鑄造工藝
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





