[發(fā)明專利]一種基于petri網(wǎng)的多源異構(gòu)數(shù)據(jù)質(zhì)量檢測方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011592682.1 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112540975B | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計)人: | 貴恒;馮凱;王元卓;王洪顯 | 申請(專利權(quán))人: | 中科大數(shù)據(jù)研究院 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2455;G06F16/26;G06F16/28 |
| 代理公司: | 鄭州明華專利代理事務(wù)所(普通合伙) 41162 | 代理人: | 高麗華 |
| 地址: | 450000 河南省鄭州*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 petri 多源異構(gòu) 數(shù)據(jù) 質(zhì)量 檢測 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于petri網(wǎng)的多源異構(gòu)數(shù)據(jù)質(zhì)量檢測方法及系統(tǒng),可以使用調(diào)度計劃模塊,配置數(shù)據(jù)質(zhì)量作業(yè),再利用petri網(wǎng)的消息反饋機(jī)制,針對每次質(zhì)量作業(yè),形成表格、圖表形式的質(zhì)量分析報告,最后,積累數(shù)據(jù)質(zhì)量檢測的問題,形成數(shù)據(jù)質(zhì)量問題知識庫,為后續(xù)的數(shù)據(jù)質(zhì)量檢測提供可持續(xù)發(fā)展的意見和建議,保證了各數(shù)據(jù)源相互獨(dú)立,統(tǒng)一了SQL形式,解決了多源異構(gòu)數(shù)據(jù)針對不同數(shù)據(jù)源需要特定查詢方法的難題,為使用者提供一種圖形化、可拖拽的質(zhì)量任務(wù)、作業(yè)管理方法,可配置質(zhì)量檢測調(diào)度計劃,生成數(shù)據(jù)質(zhì)量分析結(jié)果供使用者查看,并建立數(shù)據(jù)質(zhì)量知識庫提升解決質(zhì)量問題的能力。為系統(tǒng)數(shù)據(jù)質(zhì)量提升提供有效支撐,從而提升數(shù)據(jù)價值。
技術(shù)領(lǐng)域
本發(fā)明屬于大數(shù)據(jù)、數(shù)據(jù)治理、數(shù)據(jù)分析技術(shù)領(lǐng)域,具體涉及一種基于petri網(wǎng)的多源異構(gòu)數(shù)據(jù)質(zhì)量檢測方法及系統(tǒng)。
背景技術(shù)
信息時代在當(dāng)今已經(jīng)過渡到了大數(shù)據(jù)、人工智能與物聯(lián)網(wǎng)的時代,在大數(shù)據(jù)分析、數(shù)倉構(gòu)建、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、物聯(lián)網(wǎng)數(shù)據(jù)傳輸領(lǐng)域,數(shù)據(jù)是這一切的基石。數(shù)據(jù)質(zhì)量在數(shù)據(jù)的使用過程中至關(guān)重要,只有有質(zhì)量保障的數(shù)據(jù),算法才能得到更接近正確的答案。
在大數(shù)據(jù)的背景下,數(shù)據(jù)治理存在數(shù)據(jù)量龐大、數(shù)據(jù)來源多種、數(shù)據(jù)表述方式多樣的問題。隨著數(shù)據(jù)湖(Data Lake)概念的提出,大數(shù)據(jù)治理無需事先對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的處理,數(shù)據(jù)以關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)和二進(jìn)制數(shù)據(jù)進(jìn)行存儲。不同存儲方式內(nèi)容格式相互獨(dú)立,無法有效的整合利用。
元數(shù)據(jù)(Metadata)是描述數(shù)據(jù)的數(shù)據(jù),是對數(shù)據(jù)及信息資源的描述性信息。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(Oracle、MySQL、PostgreSQL、SQLServer等)會將元數(shù)據(jù)存在數(shù)據(jù)庫自帶的系統(tǒng)表當(dāng)中,非關(guān)系型數(shù)據(jù)庫(ElasticSearch、MongoDB等)也會在特定位置存放元數(shù)據(jù)信息。這使得通過制定元數(shù)據(jù)標(biāo)準(zhǔn)、共享元數(shù)據(jù)將復(fù)雜的、變化的分布式環(huán)境數(shù)據(jù)治理成為可能。
petri網(wǎng)自20世紀(jì)60年代被提出,通過嚴(yán)格的數(shù)據(jù)表述,直觀的圖形表達(dá),在描述多模塊、多任務(wù)的系統(tǒng)時有很大的優(yōu)勢。在云應(yīng)用平臺(Saas)中,數(shù)據(jù)質(zhì)量檢測往往也是包含多數(shù)據(jù)庫,多檢測任務(wù)的并發(fā)過程,在大數(shù)據(jù)、數(shù)據(jù)湖的環(huán)境下,不僅對質(zhì)量檢測的正確性有要求,對質(zhì)量檢測的效能有要求,對數(shù)據(jù)質(zhì)量檢測及時的信息反饋也有要求。多源異構(gòu)數(shù)據(jù)質(zhì)量檢測可以通過petri網(wǎng)可視化配置的方式形成行之有效的工作流。
當(dāng)前數(shù)據(jù)質(zhì)量檢測是數(shù)據(jù)分析的必要條件,是保證數(shù)據(jù)應(yīng)用的基礎(chǔ)。現(xiàn)有數(shù)據(jù)質(zhì)量檢測一般通過完整性、一致性、準(zhǔn)確性、及時性四個方面判別數(shù)據(jù)是否達(dá)到預(yù)期的質(zhì)量要求。往往只針對單一數(shù)據(jù)源,單一數(shù)據(jù)格式的質(zhì)量檢測,得到的結(jié)果也只是是否達(dá)到要求,缺乏全系統(tǒng)考量、結(jié)果可解釋,顯然在大數(shù)據(jù)的環(huán)境下無法勝任。本發(fā)明提供一種全局的、可配置的、可調(diào)度的、可分析的、包含知識庫的數(shù)據(jù)質(zhì)量檢測方法解決上述難題。
發(fā)明內(nèi)容
針對現(xiàn)有設(shè)備存在的缺陷和問題,本發(fā)明提供一種基于petri網(wǎng)的多源異構(gòu)數(shù)據(jù)質(zhì)量檢測方法,有效的解決了現(xiàn)有數(shù)據(jù)質(zhì)量檢測往往只針對單一數(shù)據(jù)源,單一數(shù)據(jù)格式的質(zhì)量檢測,缺乏全系統(tǒng)考量、結(jié)果可解釋,無法勝任現(xiàn)在的大數(shù)據(jù)的環(huán)境。
本發(fā)明解決其技術(shù)問題所采用的方案是:一種基于petri網(wǎng)的多源異構(gòu)數(shù)據(jù)質(zhì)量檢測方法,包括如下步驟
步驟1、配置數(shù)據(jù)源
對系統(tǒng)所管理的數(shù)據(jù)湖中連接的異構(gòu)數(shù)據(jù)源進(jìn)行配置,使多個異構(gòu)數(shù)據(jù)源與數(shù)據(jù)湖連接,將所有的異構(gòu)數(shù)據(jù)源連接本地的多源異構(gòu)數(shù)據(jù)處理服務(wù)器;
步驟2、元數(shù)據(jù)標(biāo)準(zhǔn)的制定
多源異構(gòu)數(shù)據(jù)處理服務(wù)器的數(shù)據(jù)庫采用自主擴(kuò)展的PostgreSQL數(shù)據(jù)庫,數(shù)據(jù)格式采用向大轉(zhuǎn)型的原則,通過對多源異構(gòu)數(shù)據(jù)庫實(shí)行元數(shù)據(jù)采集任務(wù)得到元數(shù)據(jù),元數(shù)據(jù)包括元數(shù)據(jù)表信息、字段信息、索引信息和約束信息;將采集來的元數(shù)據(jù)轉(zhuǎn)為PostgreSQL的數(shù)據(jù)格式入庫,從而使多源異構(gòu)數(shù)據(jù)具有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科大數(shù)據(jù)研究院,未經(jīng)中科大數(shù)據(jù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011592682.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于準(zhǔn)完備有限可達(dá)樹的通用Petri網(wǎng)的屬性分析方法及系統(tǒng)
- 一種基于擴(kuò)展Petri網(wǎng)模型的語義Web服務(wù)組合方法
- 一種基于XML的Petri網(wǎng)運(yùn)行方法及系統(tǒng)
- 一種用于生產(chǎn)線的Petri網(wǎng)控制系統(tǒng)
- 一種基于Petri網(wǎng)的數(shù)學(xué)建模系統(tǒng)
- 一種基于邏輯Petri網(wǎng)計算最優(yōu)校準(zhǔn)的方法
- 一種基于Petri網(wǎng)出現(xiàn)序列的繼電保護(hù)業(yè)務(wù)建模方法及系統(tǒng)
- 一種業(yè)務(wù)流程改進(jìn)方法及系統(tǒng)
- 一種基于Petri網(wǎng)和啟發(fā)式搜索的系統(tǒng)調(diào)度方法
- 一種Petri網(wǎng)Verilog HDL代碼生成方法
- 多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)
- 用于電網(wǎng)的多源異構(gòu)數(shù)據(jù)處理方法及裝置
- 一種配用電數(shù)據(jù)的處理方法及系統(tǒng)
- 一種面向水下探測的多源異構(gòu)數(shù)據(jù)預(yù)處理方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)的綜采工作面多源異構(gòu)數(shù)據(jù)融合方法
- 基于業(yè)務(wù)規(guī)則的多源異構(gòu)數(shù)據(jù)表示與分發(fā)方法、裝置
- 一種基于邊緣計算的電力異構(gòu)數(shù)據(jù)處理方法
- 適用于多源異構(gòu)電網(wǎng)的運(yùn)行方式拓?fù)浣Y(jié)構(gòu)特征提取方法
- 一種多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)方法
- 一種多源異構(gòu)數(shù)據(jù)的描述方法、解析方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





