[發明專利]數據血緣分析方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010901517.3 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112035416A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 余芳;卓呈祥 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06F16/17 | 分類號: | G06F16/17;G06F40/253 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 裴素英 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 血緣 分析 方法 裝置 電子設備 存儲 介質 | ||
本申請提供了一種數據血緣分析方法、裝置、電子設備及存儲介質。其中,該方法包括:獲取待分析大寬表和待分析大寬表的生成日志,其中,待分析大寬表包括多個目標字段;通過預設語法生成器對待分析大寬表的生成日志進行語法分析,獲取待分析大寬表對應的日志分析數據;根據待分析大寬表中的目標字段和日志分析數據,獲取待分析大寬表的血緣分析數據,血緣分析數據包括目標字段的上游表和上游字段,在此過程中,由于可以借助預設語法生成器對待分析大寬表進行自動化數據血緣分析,因此可以省去人工對每個字段進行逐一整理、分析的過程,可以大大提高分析效率。
技術領域
本申請涉及技術領域,具體而言,涉及一種數據血緣分析方法、裝置、電子設備及存儲介質。
背景技術
隨著互聯網業務的發展,以及相關數據管理、數據處理、大數據等的需求,很多地方會用到大寬表。大寬表相對一般表來說,指的是其中存儲的字段較多的表,比如,存放的字段超過2000個,則稱其為大寬表,大寬表中的字段可以從別的上游表中直接或間接(通過一定的計算)得到的,比如,可以來源于不同業務線中不同表中的不同字段,這些字段單個或多個經過一定的邏輯計算合成新的字段記錄在大寬表中。通過對大寬表中的字段進行分析,獲取所有上游表及其對應的字段,便于后續在提取各字段的字段值時,可以直接從對應的上游表中獲取字段值,節省查詢時間。
現有對大寬表中的字段進行整理、分析時,主要是人工基于離線特征工程進行整理、分析以定位大寬表中每個字段的上游表及其對應的字段。
但現有的分析方法,由于大寬表中的字段較多,因此,采用人工對每個字段進行逐一整理、分析時存在數據血緣分析效率較低的問題。
發明內容
有鑒于此,本申請實施例的目的在于提供一種數據血緣分析方法、裝置、電子設備及存儲介質,可以提高大寬表的數據血緣分析效率。
第一方面,本申請實施例提供了一種數據血緣分析方法,包括:
獲取待分析大寬表和待分析大寬表的生成日志,其中,待分析大寬表包括多個目標字段;
通過預設語法生成器對待分析大寬表的生成日志進行語法分析,獲取待分析大寬表對應的日志分析數據;
根據待分析大寬表中的目標字段和日志分析數據,獲取待分析大寬表的血緣分析數據,血緣分析數據包括目標字段的上游表和上游字段。
可選地,待分析大寬表的生成日志為HIVE日志,預設語法生成器為ANTLR語法分析器;
通過預設語法生成器對待分析大寬表的生成日志進行語法分析,獲取待分析大寬表對應的日志分析數據,包括:
通過ANTLR語法分析器對待分析大寬表的HIVE日志進行語法分析,獲取待分析大寬表對應的日志分析語法樹,日志分析語法樹包括多棵字段語法分析樹。
可選地,通過ANTLR語法分析器對待分析大寬表的HIVE日志進行語法分析,獲取待分析大寬表對應的日志分析語法樹,包括:
通過ANTLR語法分析器解析HIVE日志中的每條日志語句,獲取解析結果;
根據解析結果,獲取待分析大寬表對應的日志分析語法樹。
可選地,根據解析結果,獲取待分析大寬表對應的日志分析語法樹,包括:
根據解析結果,獲取每條日志語句中的字段以及字段的上游表和上游字段;
根據每條日志語句中的字段以及字段的上游表和上游字段,構建待分析大寬表對應的日志分析語法樹。
可選地,根據待分析大寬表中的目標字段和日志分析數據,獲取待分析大寬表的血緣分析數據,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010901517.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





