[發(fā)明專利]基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010195711.4 | 申請(qǐng)日: | 2020-03-19 |
| 公開(公告)號(hào): | CN111400297A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計(jì))人: | 李青枝;謝赟;吳新野;黃海清;陳大偉 | 申請(qǐng)(專利權(quán))人: | 上海德拓信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/2458;G06F16/2453;G06F16/182;G06F16/242 |
| 代理公司: | 上海灣谷知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31289 | 代理人: | 倪繼祖 |
| 地址: | 200233 上海*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hadoop 海量 數(shù)據(jù) 質(zhì)量 校驗(yàn) 方法 | ||
1.基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,其特征在于,包括:
步驟1,制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),并存儲(chǔ)于Hive的第二元數(shù)據(jù)庫中;
步驟2,用戶通過WEBUI瀏覽器界面、JDBC/ODBC接口或者CLI命令行的方式連接訪問Hive;
步驟3,用戶向Hive提交SQL指令,Hive內(nèi)驅(qū)動(dòng)器識(shí)別SQL指令類型,對(duì)于DDL指令,將創(chuàng)建表的元數(shù)據(jù)信息寫入Hive自身的第一元數(shù)據(jù)庫中;對(duì)于DQL語句,將SQL字符串轉(zhuǎn)換為抽象語法樹,對(duì)抽象語法樹進(jìn)行語法分析,同時(shí)根據(jù)第二元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),解析最新生成SQL語義是否有誤,并添加擴(kuò)展信息;
步驟4,驅(qū)動(dòng)器中編譯器將抽象語法樹編譯生成相應(yīng)的邏輯執(zhí)行計(jì)劃,結(jié)合第二元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),驅(qū)動(dòng)器中優(yōu)化器對(duì)邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化,驅(qū)動(dòng)器中執(zhí)行器將優(yōu)化后的邏輯執(zhí)行計(jì)劃轉(zhuǎn)換成物理計(jì)劃,生成MapReduce的作業(yè)并提交到Y(jié)arn上執(zhí)行,最后,將執(zhí)行結(jié)果返回;
步驟5,返回的執(zhí)行結(jié)果存入HDFS,并進(jìn)行數(shù)據(jù)可視以及異常數(shù)據(jù)導(dǎo)出、追蹤、溯源。
2.根據(jù)權(quán)利要求1所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,其特征在于,所述的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)包括:
正則規(guī)則:通過自定義正則表達(dá)式的形式制定的規(guī)則;
驗(yàn)證規(guī)則:郵箱號(hào)碼驗(yàn)證,手機(jī)號(hào)碼驗(yàn)證,車牌號(hào)碼驗(yàn)證;
判斷規(guī)則:判斷內(nèi)容長(zhǎng)度、是否為空、數(shù)據(jù)范圍;
內(nèi)容格式規(guī)則;
特定場(chǎng)景下算法規(guī)則;
定義數(shù)據(jù)質(zhì)量校驗(yàn)的標(biāo)準(zhǔn)輸入與輸出:定義數(shù)據(jù)質(zhì)量校驗(yàn)的輸入?yún)?shù)、輸出參數(shù)、返回格式、字段格式信息。
3.根據(jù)權(quán)利要求2所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,其特征在于,所述的返回格式指:使用Json數(shù)組的形式作為數(shù)據(jù)質(zhì)量探查的結(jié)果輸出。
4.根據(jù)權(quán)利要求2所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,其特征在于,步驟3中,所述的對(duì)抽象語法樹進(jìn)行語法分析,包括:
驅(qū)動(dòng)器訪問第一元數(shù)據(jù)庫獲取相應(yīng)的元數(shù)據(jù)信息,判斷查詢語句中需要查詢的表是否存在,然后判斷查詢語句中所需要查詢的字段是否存在,判斷查詢語法、語義是否正確,查詢中關(guān)鍵詞是否書寫正確、查詢中聚合的字段是否出現(xiàn)在group by語句之后、函數(shù)是否存在、函數(shù)的傳參值類型格式是否正確;
所述的根據(jù)第二元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),解析最新生成SQL語義是否有誤,并添加擴(kuò)展信息,包括:
驅(qū)動(dòng)器訪問第二元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),根據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)的標(biāo)準(zhǔn)輸入與輸出對(duì)字段添加判斷規(guī)則,再次解析最新生成SQL語義是否有誤,同時(shí)添加擴(kuò)展信息,擴(kuò)展信息包括:用于識(shí)別該條記錄的唯一ID、用于記錄狀態(tài)的標(biāo)記字段、記錄的更新時(shí)間和首次插入時(shí)間信息。
5.根據(jù)權(quán)利要求1所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,其特征在于,步驟4中,所述的編譯器將抽象語法樹編譯生成相應(yīng)的邏輯執(zhí)行計(jì)劃,指:編譯器遍歷整個(gè)抽象語法樹,將其抽象成一個(gè)一個(gè)的子查詢塊,然后將各個(gè)子查詢塊合并成執(zhí)行操作樹;
所述的優(yōu)化器對(duì)邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化,指:優(yōu)化器對(duì)執(zhí)行操作樹進(jìn)行合并、刪除來減少M(fèi)apReduce任務(wù)。
6.根據(jù)權(quán)利要求1所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,其特征在于,步驟5中,用戶使用select進(jìn)行執(zhí)行結(jié)果查看,同時(shí)使用insert語句將執(zhí)行結(jié)果重新存儲(chǔ)到HDFS。
7.根據(jù)權(quán)利要求3所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,其特征在于,步驟5中,所述的進(jìn)行數(shù)據(jù)可視以及異常數(shù)據(jù)導(dǎo)出、追蹤、溯源,包括:
對(duì)返回的執(zhí)行結(jié)果中的Json返回內(nèi)容進(jìn)行解析,通過聚類統(tǒng)計(jì),生成的每條記錄都存在唯一的ID信息,根據(jù)該信息快速溯源到原始記錄,對(duì)異常數(shù)據(jù)追蹤和溯源。
8.根據(jù)權(quán)利要求1所述的基于Hadoop的海量數(shù)據(jù)數(shù)據(jù)質(zhì)量校驗(yàn)方法,其特征在于,步驟5中,將用戶的任務(wù)加入調(diào)度任務(wù)中,進(jìn)行周期性離線數(shù)據(jù)質(zhì)量校驗(yàn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海德拓信息技術(shù)股份有限公司,未經(jīng)上海德拓信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010195711.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲(chǔ)模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計(jì)算的Hadoop平臺(tái)度量方法
- 云環(huán)境中模型驅(qū)動(dòng)的Hadoop部署方法
- 基于麒麟云計(jì)算平臺(tái)的Hadoop集群自動(dòng)化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲(chǔ)、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲(chǔ)介質(zhì)
- 一種文件型門衛(wèi)式存儲(chǔ)加密功能的Hadoop系統(tǒng)及其應(yīng)用方法
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





