[發明專利]數據血緣構建方法、裝置、存儲介質及電子設備在審
| 申請號: | 202210001562.2 | 申請日: | 2022-01-04 |
| 公開(公告)號: | CN114356964A | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 劉俊杰;余利華;郭憶;李卓豪;汪源 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/25;G06F16/28;G06F8/41 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 孫寶海;闞梓瑄 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 血緣 構建 方法 裝置 存儲 介質 電子設備 | ||
本發明為數據血緣構建方法、裝置、存儲介質及電子設備,根據本公開實施方式,將數據血緣關系的采集點設定為在數據庫系統的數據處理引擎,以獲取由所述數據處理引擎生成的已解析訪問計劃;基于所述已解析訪問計劃構建數據血緣關系。本公開將數據血緣的采集點設置于數據處理引擎得到的已解析訪問計劃,利用已解析訪問計劃的正確性保障獲得的數據血緣關系的準確性;另外,通過在數據處理引擎中設置數據血緣的采集點,以替代在平臺層通過語法解析工具對接收的SQL命令解析以及獲取數據血緣關系的方式,省去語法解析工具,無需再關注繁多的數據庫命令的各種語法規則和升級對此語法解析工具帶來的變動影響,降低開發成本和實現難度;以及可覆蓋各種ETL場景。
技術領域
本公開的實施方式涉及數據處理技術領域,更具體地,本公開的實施方式涉及數據血緣構建方法、裝置、存儲介質及電子設備。
背景技術
本部分旨在為權利要求中陳述的本公開的實施方式提供背景或上下文,此處的描述不因為包括在本部分中就承認是現有技術。
隨著大數據時代的到來,帶來海量數據的處理及存儲工作。相應的,數據流轉越來越復雜,在數據流轉過程中產生的數據間的依賴關系的準確確定也愈發重要,關系到問題排查、溯源追蹤以及組織和/或用戶關系的準確構建。
發明內容
雖然目前的數據庫系統(包括傳統數據庫、分布式數據庫)在數據處理性能上有了長足進步,但是在獲取數據依賴關系方面仍有不足。在數據庫系統中,數據處理加工過程即ETL過程,指的是將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程,在此過程中產生的數據依賴關系被稱為“數據血緣關系”。在目前提取“數據血緣關系”的方式中,存在一些不足。比如,目前的數據血緣關系通常通過由數據庫命令解析的抽象語法樹(Abstract Syntax Tree,AST)進行提取。抽象語法樹(AST)是用編程語言編寫的源代碼的抽象語法結構的樹表示。樹的每個節點(Node)表示在源代碼(如SQL命令)中出現的構造。在實際應用中,由于數據庫命令的語法規則復雜,解析得到抽象語法樹的難度較大,往往存在錯誤,因此,根據抽象語法樹提取的數據血緣關系的準確性無法得到保障。另外,隨著數據處理引擎的版本升級,相應的SQL命令的語法規則可能發生變動,相應的,根據SQL命令解析抽象語法樹的解析方式以及數據血緣關系的提取方式也要隨之變動,帶來進一步的開發和維護成本。
為此,本領域亟待一種數據血緣關系提取的方案,以能高效提取準確的數據血緣關系,以解決上述問題。
在本上下文中,本公開的實施方式提供數據血緣構建方法、裝置、存儲介質及電子設備。
根據本公開的第一個方面,提供一種數據血緣構建方法,應用于數據庫系統;所述數據庫系統包括數據處理引擎,所述數據處理引擎生成對應于數據庫命令的訪問計劃,所述訪問計劃包括多個節點,所述多個節點中的至少部分節點涉及數據對象;所述方法包括:獲取由所述數據處理引擎生成的已解析訪問計劃;基于所述已解析訪問計劃構建數據血緣關系;其中,所述數據血緣關系表示所述多個節點涉及的數據對象之間的關聯關系。
在本公開第一方面的一些實施例中,所述已解析訪問計劃包括以下至少一種:經過元數據匹配之后產生的邏輯訪問計劃;基于所述邏輯訪問計劃生成的物理訪問計劃。
在本公開第一方面的一些實施例中,所述數據處理引擎包括SPARK。
在本公開第一方面的一些實施例中,所述數據處理引擎配置有監聽器;所述獲取由所述數據處理引擎生成的已解析訪問計劃,包括:
在所述已解析訪問計劃執行成功后,調用所述監聽器獲取所述已解析訪問計劃。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210001562.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





