[發(fā)明專利]基于neo4j大數(shù)據(jù)血緣關(guān)系管理方法、系統(tǒng)、設備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201811196013.5 | 申請日: | 2018-10-15 |
| 公開(公告)號: | CN109446279A | 公開(公告)日: | 2019-03-08 |
| 發(fā)明(設計)人: | 鄧燕輝;蔡適擇;姚小龍;曾昭正;唐國凱;張文斌 | 申請(專利權(quán))人: | 順豐科技有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 北京志霖恒遠知識產(chǎn)權(quán)代理事務所(普通合伙) 11435 | 代理人: | 劉進 |
| 地址: | 518061 廣東省深圳市南山區(qū)學府路(以南)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 血緣關(guān)系 抽象語法樹 大數(shù)據(jù) 數(shù)據(jù)源 存儲介質(zhì) 節(jié)點數(shù)據(jù) 采集 圖形化展現(xiàn) 圖形數(shù)據(jù)庫 異構(gòu)數(shù)據(jù)源 元數(shù)據(jù)管理 必要信息 關(guān)系存儲 節(jié)點采集 內(nèi)部數(shù)據(jù) 深度遍歷 依賴關(guān)系 流轉(zhuǎn) 解析 存儲 打通 管理 引入 橋梁 | ||
本發(fā)明涉及基于neo4j大數(shù)據(jù)血緣關(guān)系管理方法、系統(tǒng)、設備及存儲介質(zhì)。方法包括以下步驟:解析SQL語句,生成相應的抽象語法樹,對于每個抽象語法樹,深度遍歷該抽象語法樹的每個節(jié)點,在每個節(jié)點采集相應的節(jié)點數(shù)據(jù);將采集的節(jié)點數(shù)據(jù)關(guān)系存儲于neo4j圖形數(shù)據(jù)庫,將采集的必要信息存儲于HBase;將異構(gòu)數(shù)據(jù)源的信息引入血緣關(guān)系系統(tǒng),形成血緣關(guān)系。便于圖形化展現(xiàn)各數(shù)據(jù)源、Hive表間的依賴關(guān)系和血緣關(guān)系。提升了大數(shù)據(jù)平臺元數(shù)據(jù)管理能力的層次,加強了對平臺內(nèi)部數(shù)據(jù)流轉(zhuǎn)的把控,理清數(shù)據(jù)的來龍去脈,打通了各異構(gòu)數(shù)據(jù)源的隔閡,血緣關(guān)系作為一座橋梁,連接了各數(shù)據(jù)源。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)庫技術(shù)領(lǐng)域,尤其涉及基于neo4j大數(shù)據(jù)血緣關(guān)系管理方法、系統(tǒng)、設備及存儲介質(zhì)。
背景技術(shù)
大數(shù)據(jù)時代,數(shù)據(jù)蘊藏著無限的價值。移動互聯(lián)網(wǎng)的蓬勃發(fā)展,讓各互聯(lián)網(wǎng)公司積累了PB級別的用戶數(shù)據(jù)和業(yè)務數(shù)據(jù)。在強大的需求驅(qū)動下,大數(shù)據(jù)技術(shù)也穩(wěn)步成熟發(fā)展,通過HDFS,HBase,MongoDB,Kafka等存儲組件,記錄下了海量且持續(xù)增加的數(shù)據(jù)。
數(shù)據(jù)的產(chǎn)生、加工融合、流轉(zhuǎn)流通,到最終消亡,數(shù)據(jù)之間自然會形成一種關(guān)系。借鑒人類社會中類似的一種關(guān)系來表達數(shù)據(jù)之間的這種關(guān)系,稱之為數(shù)據(jù)的血緣關(guān)系。
隨著大數(shù)據(jù)的崛起,數(shù)據(jù)挖掘?qū)τ谄髽I(yè)來說顯得越來越重要。目前基于數(shù)據(jù)挖掘的開源解決方案有2種,WhereHows系統(tǒng)和Atlas系統(tǒng)。WhereHows系統(tǒng),其所依賴組件非常多,而且github上的項目,文檔滯后非常嚴重,編譯會遇到非常多的問題,對于一個開源項目,這是致命傷,對使用者非常不友好。而且其依賴Azkaban,不支持字段級別的血緣。
而Atlas也是一個龐大的系統(tǒng),需要依賴titan,solr等。研究人員嘗試修改其元數(shù)據(jù)存儲組件為HBase,但Atlas卻只支持非常低級別的Hbase。對于ElasticSearch也是同樣的問題,Atlas也只支持非常低級別ElasticSearch。若大數(shù)據(jù)團隊為Atlas系統(tǒng)維護兩個低級別的HBase和ElasticSearch,則成本太大。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明的目的在于提供基于neo4j大數(shù)據(jù)血緣關(guān)系管理方法、系統(tǒng)、設備及存儲介質(zhì)。
根據(jù)本發(fā)明的一個方面,提供了基于neo4j大數(shù)據(jù)血緣關(guān)系管理方法,包括以下步驟:
解析SQL語句,生成相應的抽象語法樹,對于每個抽象語法樹,深度遍歷該抽象語法樹的每個節(jié)點,在每個節(jié)點采集相應的節(jié)點數(shù)據(jù);
將采集的節(jié)點數(shù)據(jù)關(guān)系存儲于neo4j圖形數(shù)據(jù)庫,將采集的必要信息存儲于HBase;
將異構(gòu)數(shù)據(jù)源的信息引入血緣關(guān)系系統(tǒng),形成血緣關(guān)系。
作為優(yōu)選,采用Antlr語法分析工具,進行語法、詞法和語義分析,生成相應的抽象語法樹。
作為優(yōu)選,基于neo4j大數(shù)據(jù)血緣關(guān)系管理方法還包括:
針對neo4j建立索引,優(yōu)化查詢語句。
作為優(yōu)選,所述相應的節(jié)點數(shù)據(jù)包括源數(shù)據(jù)表、目標數(shù)據(jù)表、源數(shù)據(jù)表字段和目標數(shù)據(jù)表字段。
作為優(yōu)選,所述的必要信息包括Hive SQL語句及運行Hive SQL的時間。
作為優(yōu)選,將異構(gòu)數(shù)據(jù)源的信息引入血緣關(guān)系系統(tǒng),形成血緣關(guān)系,包括:
打通內(nèi)部的ETL系統(tǒng)和接入分發(fā)系統(tǒng),獲取定位唯一數(shù)據(jù)源的數(shù)據(jù)信息并引入血緣關(guān)系系統(tǒng)。
根據(jù)本發(fā)明的另一個方面,提供了基于neo4j大數(shù)據(jù)血緣關(guān)系管理系統(tǒng),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于順豐科技有限公司,未經(jīng)順豐科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811196013.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于語法分析的獲取數(shù)據(jù)血緣關(guān)系的系統(tǒng)及方法
- 一種基于聚類分析的數(shù)據(jù)血緣智能溯源的方法及裝置
- 一種節(jié)點血緣關(guān)系確定方法、裝置以及電子設備
- 一種數(shù)據(jù)管理方法、血緣關(guān)系顯示方法和相關(guān)裝置
- 一種醫(yī)療流式數(shù)據(jù)血緣關(guān)系分析、存儲方法及裝置
- 基于SQL的數(shù)據(jù)血緣關(guān)系分析方法以及系統(tǒng)
- 數(shù)據(jù)倉庫的數(shù)據(jù)血緣關(guān)系展示方法及裝置、電子設備
- 數(shù)據(jù)血緣關(guān)系解析方法、計算機裝置和存儲介質(zhì)
- 數(shù)據(jù)血緣關(guān)系展示方法、裝置、電子設備及存儲介質(zhì)
- 數(shù)據(jù)血緣關(guān)系展示方法及裝置
- 基于大數(shù)據(jù)平臺的網(wǎng)絡安全實施系統(tǒng)及方法
- 基于事件驅(qū)動的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應用開發(fā)的系統(tǒng)及方法
- 家用設備報告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲介質(zhì)
- 一種基于計算機大數(shù)據(jù)的平臺架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計算機設備
- 一種知識產(chǎn)權(quán)大數(shù)據(jù)情報檢索系統(tǒng)
- 一種數(shù)據(jù)同步處理方法、裝置和單點登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補充方法、裝置、計算機設備和存儲介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個數(shù)據(jù)源調(diào)節(jié)工業(yè)自動化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計算機設備
- 一種動態(tài)數(shù)據(jù)源查詢方法及裝置
- 一種訪問多數(shù)據(jù)源的方法及系統(tǒng)





