[發(fā)明專利]基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010195711.4 | 申請(qǐng)日: | 2020-03-19 |
| 公開(公告)號(hào): | CN111400297A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計(jì))人: | 李青枝;謝赟;吳新野;黃海清;陳大偉 | 申請(qǐng)(專利權(quán))人: | 上海德拓信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/2458;G06F16/2453;G06F16/182;G06F16/242 |
| 代理公司: | 上海灣谷知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31289 | 代理人: | 倪繼祖 |
| 地址: | 200233 上海*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hadoop 海量 數(shù)據(jù) 質(zhì)量 校驗(yàn) 方法 | ||
本發(fā)明公開了基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,包括:制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn);對(duì)于DDL指令,將創(chuàng)建表的元數(shù)據(jù)信息寫入Hive;對(duì)于DQL語(yǔ)句,將SQL字符串轉(zhuǎn)換為抽象語(yǔ)法樹,對(duì)抽象語(yǔ)法樹進(jìn)行語(yǔ)法分析,同時(shí)根據(jù)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),解析最新生成SQL語(yǔ)義是否有誤,并添加擴(kuò)展信息;將抽象語(yǔ)法樹編譯生成相應(yīng)的邏輯執(zhí)行計(jì)劃并優(yōu)化,將優(yōu)化后的邏輯執(zhí)行計(jì)劃轉(zhuǎn)換成物理計(jì)劃,生成MapReduce的作業(yè)并提交到Y(jié)arn上執(zhí)行,最后,將執(zhí)行結(jié)果返回;返回的執(zhí)行結(jié)果存入HDFS,并進(jìn)行數(shù)據(jù)可視以及異常數(shù)據(jù)導(dǎo)出、追蹤、溯源。達(dá)到異常數(shù)據(jù)可展示、可追溯、易配置、易分類的數(shù)據(jù)質(zhì)量校驗(yàn)效果。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及數(shù)據(jù)質(zhì)量的校驗(yàn)方法。
背景技術(shù)
在目前信息化技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展下,數(shù)據(jù)量呈噴井式增長(zhǎng),數(shù)據(jù)類型也逐漸增多,并且復(fù)雜程度越來越高,現(xiàn)代社會(huì)已進(jìn)入大數(shù)據(jù)時(shí)代。在這種背景下,要想充分發(fā)揮大數(shù)據(jù)的應(yīng)用價(jià)值,必須加強(qiáng)數(shù)據(jù)質(zhì)量管理力度,提高數(shù)據(jù)傳輸及使用的安全性、準(zhǔn)確性、穩(wěn)定性。
在過去幾十年發(fā)展歷程中,以O(shè)racle等大型關(guān)系數(shù)據(jù)庫(kù)為主,近幾年也出現(xiàn)了各種各樣層出不窮的開源數(shù)據(jù)庫(kù),比如MySQL、PGSQL等關(guān)系型數(shù)據(jù)庫(kù),很多半結(jié)構(gòu)化數(shù)據(jù)庫(kù),比如ElasticSearch,mongodb等,以及各種圖數(shù)據(jù)庫(kù)的興起,還有很多互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)。基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)中臺(tái)建設(shè)在數(shù)據(jù)治理中數(shù)據(jù)質(zhì)量就顯得尤為重要;如果不對(duì)不符合規(guī)范的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化識(shí)別、篩選;不僅面臨數(shù)據(jù)存儲(chǔ)的問題,還會(huì)導(dǎo)致很多有價(jià)值的信息變得很難獲取,大量無效數(shù)據(jù)污染,加大無謂的人力財(cái)力成本的投入。
在傳統(tǒng)的數(shù)據(jù)質(zhì)量過程中,很多都忽視了數(shù)據(jù)質(zhì)量的重要性,導(dǎo)致很多正常的數(shù)據(jù)被異常數(shù)據(jù)污染,通常都是被動(dòng)地被下游用戶或者應(yīng)用團(tuán)隊(duì)發(fā)現(xiàn)之后,然后告訴大數(shù)據(jù)數(shù)據(jù)分析團(tuán)隊(duì)去查找異常數(shù)據(jù)原因,然后去上游查找根源。這樣就會(huì)導(dǎo)致排查周期慢、流程復(fù)雜、費(fèi)時(shí)費(fèi)力、只有專門的人員才能理解,學(xué)習(xí)成本增加、數(shù)據(jù)堆積等諸多問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,有效實(shí)現(xiàn)數(shù)據(jù)質(zhì)量校驗(yàn)。
實(shí)現(xiàn)上述目的的技術(shù)方案是:
基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,包括:
步驟1,制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),并存儲(chǔ)于Hive的第二元數(shù)據(jù)庫(kù)中;
步驟2,用戶通過WEBUI瀏覽器界面、JDBC/ODBC接口或者CLI命令行的方式連接訪問Hive;
步驟3,用戶向Hive提交SQL指令,Hive內(nèi)驅(qū)動(dòng)器識(shí)別SQL指令類型,對(duì)于DDL指令,將創(chuàng)建表的元數(shù)據(jù)信息寫入Hive自身的第一元數(shù)據(jù)庫(kù)中;對(duì)于DQL語(yǔ)句,將SQL字符串轉(zhuǎn)換為抽象語(yǔ)法樹,對(duì)抽象語(yǔ)法樹進(jìn)行語(yǔ)法分析,同時(shí)根據(jù)第二元數(shù)據(jù)庫(kù)中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),解析最新生成SQL語(yǔ)義是否有誤,并添加擴(kuò)展信息;
步驟4,驅(qū)動(dòng)器中編譯器將抽象語(yǔ)法樹編譯生成相應(yīng)的邏輯執(zhí)行計(jì)劃,結(jié)合第二元數(shù)據(jù)庫(kù)中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),驅(qū)動(dòng)器中優(yōu)化器對(duì)邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化,驅(qū)動(dòng)器中執(zhí)行器將優(yōu)化后的邏輯執(zhí)行計(jì)劃轉(zhuǎn)換成物理計(jì)劃,生成MapReduce的作業(yè)并提交到Y(jié)arn上執(zhí)行,最后,將執(zhí)行結(jié)果返回;
步驟5,返回的執(zhí)行結(jié)果存入HDFS,并進(jìn)行數(shù)據(jù)可視以及異常數(shù)據(jù)導(dǎo)出、追蹤、溯源。
優(yōu)選的,所述的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)包括:
正則規(guī)則:通過自定義正則表達(dá)式的形式制定的規(guī)則;
驗(yàn)證規(guī)則:郵箱號(hào)碼驗(yàn)證,手機(jī)號(hào)碼驗(yàn)證,車牌號(hào)碼驗(yàn)證;
判斷規(guī)則:判斷內(nèi)容長(zhǎng)度、是否為空、數(shù)據(jù)范圍;
內(nèi)容格式規(guī)則;
特定場(chǎng)景下算法規(guī)則;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海德拓信息技術(shù)股份有限公司,未經(jīng)上海德拓信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010195711.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲(chǔ)模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計(jì)算的Hadoop平臺(tái)度量方法
- 云環(huán)境中模型驅(qū)動(dòng)的Hadoop部署方法
- 基于麒麟云計(jì)算平臺(tái)的Hadoop集群自動(dòng)化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲(chǔ)、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲(chǔ)介質(zhì)
- 一種文件型門衛(wèi)式存儲(chǔ)加密功能的Hadoop系統(tǒng)及其應(yīng)用方法
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





