[發(fā)明專利]基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法在審

申請(qǐng)?zhí)枺?/td>	202010195711.4	申請(qǐng)日：	2020-03-19
公開（公告）號(hào)：	CN111400297A	公開（公告）日：	2020-07-10
發(fā)明（設(shè)計(jì)）人：	李青枝;謝赟;吳新野;黃海清;陳大偉	申請(qǐng)（專利權(quán)）人：	上海德拓信息技術(shù)股份有限公司
主分類號(hào)：	G06F16/215	分類號(hào)：	G06F16/215;G06F16/2458;G06F16/2453;G06F16/182;G06F16/242
代理公司：	上海灣谷知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31289	代理人：	倪繼祖
地址：	200233 上海***	國(guó)省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于 hadoop 海量數(shù)據(jù) 質(zhì)量校驗(yàn) 方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法，其特征在于，包括：

步驟1，制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)，并存儲(chǔ)于Hive的第二元數(shù)據(jù)庫中；

步驟2，用戶通過WEBUI瀏覽器界面、JDBC/ODBC接口或者CLI命令行的方式連接訪問Hive；

步驟3，用戶向Hive提交SQL指令，Hive內(nèi)驅(qū)動(dòng)器識(shí)別SQL指令類型，對(duì)于DDL指令，將創(chuàng)建表的元數(shù)據(jù)信息寫入Hive自身的第一元數(shù)據(jù)庫中；對(duì)于DQL語句，將SQL字符串轉(zhuǎn)換為抽象語法樹，對(duì)抽象語法樹進(jìn)行語法分析，同時(shí)根據(jù)第二元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)，解析最新生成SQL語義是否有誤，并添加擴(kuò)展信息；

步驟4，驅(qū)動(dòng)器中編譯器將抽象語法樹編譯生成相應(yīng)的邏輯執(zhí)行計(jì)劃，結(jié)合第二元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)，驅(qū)動(dòng)器中優(yōu)化器對(duì)邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化，驅(qū)動(dòng)器中執(zhí)行器將優(yōu)化后的邏輯執(zhí)行計(jì)劃轉(zhuǎn)換成物理計(jì)劃，生成MapReduce的作業(yè)并提交到Y(jié)arn上執(zhí)行，最后，將執(zhí)行結(jié)果返回；

步驟5，返回的執(zhí)行結(jié)果存入HDFS，并進(jìn)行數(shù)據(jù)可視以及異常數(shù)據(jù)導(dǎo)出、追蹤、溯源。

2.根據(jù)權(quán)利要求1所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法，其特征在于，所述的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)包括：

正則規(guī)則：通過自定義正則表達(dá)式的形式制定的規(guī)則；

驗(yàn)證規(guī)則：郵箱號(hào)碼驗(yàn)證，手機(jī)號(hào)碼驗(yàn)證，車牌號(hào)碼驗(yàn)證；

判斷規(guī)則：判斷內(nèi)容長(zhǎng)度、是否為空、數(shù)據(jù)范圍；

內(nèi)容格式規(guī)則；

特定場(chǎng)景下算法規(guī)則；

定義數(shù)據(jù)質(zhì)量校驗(yàn)的標(biāo)準(zhǔn)輸入與輸出：定義數(shù)據(jù)質(zhì)量校驗(yàn)的輸入?yún)?shù)、輸出參數(shù)、返回格式、字段格式信息。

3.根據(jù)權(quán)利要求2所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法，其特征在于，所述的返回格式指：使用Json數(shù)組的形式作為數(shù)據(jù)質(zhì)量探查的結(jié)果輸出。

4.根據(jù)權(quán)利要求2所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法，其特征在于，步驟3中，所述的對(duì)抽象語法樹進(jìn)行語法分析，包括：

驅(qū)動(dòng)器訪問第一元數(shù)據(jù)庫獲取相應(yīng)的元數(shù)據(jù)信息，判斷查詢語句中需要查詢的表是否存在，然后判斷查詢語句中所需要查詢的字段是否存在，判斷查詢語法、語義是否正確，查詢中關(guān)鍵詞是否書寫正確、查詢中聚合的字段是否出現(xiàn)在group by語句之后、函數(shù)是否存在、函數(shù)的傳參值類型格式是否正確；

所述的根據(jù)第二元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)，解析最新生成SQL語義是否有誤，并添加擴(kuò)展信息，包括：

驅(qū)動(dòng)器訪問第二元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)，根據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)的標(biāo)準(zhǔn)輸入與輸出對(duì)字段添加判斷規(guī)則，再次解析最新生成SQL語義是否有誤，同時(shí)添加擴(kuò)展信息，擴(kuò)展信息包括：用于識(shí)別該條記錄的唯一ID、用于記錄狀態(tài)的標(biāo)記字段、記錄的更新時(shí)間和首次插入時(shí)間信息。

5.根據(jù)權(quán)利要求1所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法，其特征在于，步驟4中，所述的編譯器將抽象語法樹編譯生成相應(yīng)的邏輯執(zhí)行計(jì)劃，指：編譯器遍歷整個(gè)抽象語法樹，將其抽象成一個(gè)一個(gè)的子查詢塊，然后將各個(gè)子查詢塊合并成執(zhí)行操作樹；

所述的優(yōu)化器對(duì)邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化，指：優(yōu)化器對(duì)執(zhí)行操作樹進(jìn)行合并、刪除來減少M(fèi)apReduce任務(wù)。

6.根據(jù)權(quán)利要求1所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法，其特征在于，步驟5中，用戶使用select進(jìn)行執(zhí)行結(jié)果查看，同時(shí)使用insert語句將執(zhí)行結(jié)果重新存儲(chǔ)到HDFS。

7.根據(jù)權(quán)利要求3所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法，其特征在于，步驟5中，所述的進(jìn)行數(shù)據(jù)可視以及異常數(shù)據(jù)導(dǎo)出、追蹤、溯源，包括：

對(duì)返回的執(zhí)行結(jié)果中的Json返回內(nèi)容進(jìn)行解析，通過聚類統(tǒng)計(jì)，生成的每條記錄都存在唯一的ID信息，根據(jù)該信息快速溯源到原始記錄，對(duì)異常數(shù)據(jù)追蹤和溯源。

8.根據(jù)權(quán)利要求1所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法，其特征在于，步驟5中，將用戶的任務(wù)加入調(diào)度任務(wù)中，進(jìn)行周期性離線數(shù)據(jù)質(zhì)量校驗(yàn)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海德拓信息技術(shù)股份有限公司，未經(jīng)上海德拓信息技術(shù)股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010195711.4/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】