[發明專利]基于關鍵拓撲結構分析的數據血緣關系解析方法和系統有效
| 申請號: | 202110889427.1 | 申請日: | 2021-08-04 |
| 公開(公告)號: | CN113343036B | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 夏瑩杰;劉瑞峰;蔣萌青 | 申請(專利權)人: | 杭州遠眺科技有限公司 |
| 主分類號: | G06F16/83 | 分類號: | G06F16/83 |
| 代理公司: | 杭州華知專利事務所(普通合伙) 33235 | 代理人: | 束曉前 |
| 地址: | 310012 浙江省杭州市余杭區倉*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵 拓撲 結構 分析 數據 血緣關系 解析 方法 系統 | ||
本發明公開了一種基于關鍵拓撲結構分析的數據血緣關系解析方法和系統,其中方法利用XML事件驅動模型方法對kettle資源庫導出XML文件進行解析;記錄kettle資源庫XML文件中步驟結點的上下游結點,構建包含所有步驟結點的關鍵步驟拓撲結構;從關鍵步驟拓撲結構中識別關鍵結點并對對應的步驟進行血緣解析,采用遞歸處理關鍵步驟拓撲結構上的各個步驟,在血緣關系解析過程中,不斷傳遞解析的血緣關系數據給關鍵拓撲結構中的上游結點,直到對開始結點完成解析,從而完成kettle數據血緣關系的解析過程。本發明方法方便對kettle數據血緣關系進行解析,對外部框架依賴較少,而且更加高效、靈活。
技術領域
本發明涉及數據血緣關系解析領域,更具體的,涉及一種基于關鍵拓撲結構分析的數據血緣關系解析方法和系統。
背景技術
數據在產生、加工融合、流轉流通,到最終消亡的過程中,會自然地形成一種關系,借鑒人類社會中類似的關系來表達數據之間的這種關系,稱之為數據的血緣關系。
數據血緣是元數據的組成部分之一。它分析表和字段從數據源到當前表的血緣路徑,以及血緣字段之間存在的關系是否滿足,關注的數據一致性以及表設計的合理性。數據血緣可用于分析上游數據發生變化會給下游數據帶來哪些影響;可在下游數據發生變化時追蹤上游問題的源頭。目前實現數據血緣的方法主要有以下兩種:
第一種是在Hive數據倉庫中,使用Hive提供的原生API如LineageInfoAPI來解析當前Hive任務的數據血緣關系。這種方案在Hadoop生態中的數據治理組件ApacheAtlas中有著廣泛的使用,使用簡單、解析準確,數據血緣的粒度可達到列級血緣。然而該方法使得血緣解析功能與Hive組件具有強耦合,無法在任意時刻解析不同的SQL方言,因此對于不使用Hive和處理不同SQL方言的環境無法適用。
第二種是借助數據庫廠商或公司的支持,使用專門提供的SQL解析API,或自主開發解析SQL語句的庫,對SQL語句進行詞法和語法分析,轉成AST抽象語法樹,然后遞歸遍歷和分析抽象語法樹中的結點獲取血緣關系。這種方案的適用性更強,然而增加了實現血緣功能的難度。
然而,以上的方案只適用在獲取給定SQL語句進行血緣解析的場景中。在大數據場景中,執行數據倉庫執行抽取-轉換-加載(Extract, Transform, and Load, ETL)作業時,無法從一個更高的層次上來解析作業內部的數據血緣關系。因此,如何提供一種數據血緣關系解析方法,用于實現在抽取-轉換-加載(ETL)作業中,尤其是在開源的ETL工具——kettle中的數據血緣關系解析,是本領域技術人員亟待解決的技術問題。
發明內容
鑒于上述問題,本發明的目的是提供一種基于關鍵拓撲結構分析的kettle數據血緣關系解析方法和系統,用于實現在抽取-轉換-加載(ETL)作業中,尤其是在開源的ETL工具——kettle中的數據血緣關系解析。
本發明第一方面提供了一種基于關鍵拓撲結構分析的數據血緣關系解析方法,包括以下步驟:
導出kettle資源庫為XML格式的文件,并通過XML事件驅動模型方法對所述文件進行解析,得到XML文件;
為所述XML文件的order結點和transformation結點添加訪問事件處理器;
以XML事件驅動模型方法遍歷訪問所述XML文件,記錄所述order結點下的步驟結點及其上下游關系,從而得到包含所有步驟結點的關鍵步驟拓撲結構;
根據所述關鍵步驟拓撲結構識別所述transformation結點的關鍵結點,所述關鍵結點為含有有效數據血緣關系的步驟結點;
從位于下游的關鍵結點開始進行數據血緣關系解析,得到血緣關系數據后,將所述血緣關系數據傳遞給上游的關鍵結點,直到對所述關鍵步驟拓撲結構的開始結點完成解析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州遠眺科技有限公司,未經杭州遠眺科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110889427.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:遠程維護方法及裝置
- 下一篇:對象推薦方法、裝置、電子設備及存儲介質





