[發(fā)明專(zhuān)利]一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110671429.3 | 申請(qǐng)日: | 2021-06-17 |
| 公開(kāi)(公告)號(hào): | CN113569006A | 公開(kāi)(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計(jì))人: | 葛俊;梁云丹;黃建平;張旭東;張建松;陳浩 | 申請(qǐng)(專(zhuān)利權(quán))人: | 國(guó)家電網(wǎng)有限公司;國(guó)網(wǎng)浙江省電力有限公司 |
| 主分類(lèi)號(hào): | G06F16/33 | 分類(lèi)號(hào): | G06F16/33;G06F40/242 |
| 代理公司: | 杭州華鼎知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33217 | 代理人: | 項(xiàng)軍 |
| 地址: | 100017 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 特征 大規(guī)模 質(zhì)量 異常 檢測(cè) 方法 | ||
本發(fā)明公開(kāi)了一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,包括以下步驟:構(gòu)建數(shù)據(jù)異常檢測(cè)方法庫(kù),根據(jù)每種數(shù)據(jù)特征設(shè)置對(duì)應(yīng)的檢測(cè)方法,匯總形成數(shù)據(jù)異常檢測(cè)方法庫(kù);對(duì)數(shù)據(jù)特征進(jìn)行異常檢測(cè)方法匹配,根據(jù)匹配結(jié)果中的異常檢測(cè)方法進(jìn)行檢測(cè);大規(guī)模數(shù)據(jù)特征遍歷,對(duì)每個(gè)數(shù)據(jù)特征進(jìn)行匹配和檢測(cè)。本發(fā)明的實(shí)質(zhì)性效果包括:將異常檢測(cè)由檢測(cè)規(guī)則驅(qū)動(dòng)的方式轉(zhuǎn)變?yōu)橛蓴?shù)據(jù)特征驅(qū)動(dòng)的方式,基于各字段中數(shù)據(jù)本身的特征信息生成相應(yīng)的異常值檢測(cè)方法,同時(shí)針對(duì)大規(guī)模數(shù)據(jù)設(shè)置特殊的模糊化處理機(jī)制,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量檢核的規(guī)模化與自動(dòng)化,提高數(shù)據(jù)質(zhì)量問(wèn)題檢測(cè)效率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)異常檢測(cè)領(lǐng)域,特別涉及一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法。
背景技術(shù)
隨著數(shù)字經(jīng)濟(jì)的發(fā)展,各行各業(yè)已經(jīng)不再一味地追求數(shù)據(jù)量的規(guī)模,在數(shù)據(jù)應(yīng)用的過(guò)程中對(duì)數(shù)據(jù)質(zhì)量的要求也越來(lái)越高,面對(duì)海量的數(shù)據(jù)資源,如何更快、更準(zhǔn)、更智能得發(fā)現(xiàn)定位數(shù)據(jù)質(zhì)量問(wèn)題,開(kāi)展相應(yīng)治理工作,是當(dāng)前企業(yè)級(jí)數(shù)據(jù)資產(chǎn)管理的重點(diǎn)與核心。
如公開(kāi)號(hào)CN108256074A的發(fā)明公開(kāi)了一種校驗(yàn)處理的方法,包括獲取待校驗(yàn)的數(shù)據(jù)倉(cāng)庫(kù)的模型,每一模型包括多個(gè)字段信息,所述字段信息包括字段定義和字段類(lèi)型;根據(jù)預(yù)先存儲(chǔ)的數(shù)據(jù)字典,對(duì)所述字段信息進(jìn)行校驗(yàn),所述數(shù)據(jù)字典包括多個(gè)標(biāo)準(zhǔn)用語(yǔ),每一標(biāo)準(zhǔn)用語(yǔ)包括標(biāo)準(zhǔn)定義和標(biāo)準(zhǔn)類(lèi)型;若所述字段定義與標(biāo)準(zhǔn)定義匹配且所述字段類(lèi)型與標(biāo)準(zhǔn)類(lèi)型不匹配,則將所述字段類(lèi)型修改為與標(biāo)準(zhǔn)類(lèi)型一致。所述方法根據(jù)標(biāo)準(zhǔn)用語(yǔ)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的模型進(jìn)行校驗(yàn),在字段定義與標(biāo)準(zhǔn)定義匹配且字段類(lèi)型與標(biāo)準(zhǔn)類(lèi)型不匹配時(shí),有針對(duì)性的將字段類(lèi)型修改為與標(biāo)準(zhǔn)類(lèi)型一致,從而得到標(biāo)準(zhǔn)的一致化的模型傳統(tǒng)的數(shù)據(jù)質(zhì)量異常檢測(cè)是以規(guī)則為驅(qū)動(dòng),針對(duì)的是特定表的特定字段,由業(yè)務(wù)專(zhuān)家依據(jù)業(yè)務(wù)規(guī)范和經(jīng)驗(yàn)知識(shí)設(shè)計(jì)一套質(zhì)量異常檢測(cè)方法,以此開(kāi)展相應(yīng)專(zhuān)項(xiàng)治理工作,這樣構(gòu)造的檢測(cè)方法檢測(cè)對(duì)象及用途專(zhuān)一、通用性不強(qiáng),當(dāng)需要開(kāi)展大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)時(shí)效率低下、范圍局限且需要逐個(gè)人為指定,無(wú)法實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)質(zhì)量異常檢測(cè)。
發(fā)明內(nèi)容
針對(duì)上述問(wèn)題,本發(fā)明提供了一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,將異常檢測(cè)由檢測(cè)規(guī)則驅(qū)動(dòng)的方式轉(zhuǎn)變?yōu)橛蓴?shù)據(jù)特征驅(qū)動(dòng)的方式,基于各字段中數(shù)據(jù)本身的特征信息生成相應(yīng)的異常值檢測(cè)方法,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量檢核的規(guī)模化與自動(dòng)化,擴(kuò)大了數(shù)據(jù)質(zhì)量檢測(cè)的范圍,提高數(shù)據(jù)質(zhì)量問(wèn)題檢測(cè)效率。
以下是本發(fā)明的技術(shù)方案。
一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,包括以下步驟:
構(gòu)建數(shù)據(jù)異常檢測(cè)方法庫(kù),根據(jù)每種數(shù)據(jù)特征設(shè)置對(duì)應(yīng)的檢測(cè)方法,匯總形成數(shù)據(jù)異常檢測(cè)方法庫(kù);對(duì)數(shù)據(jù)特征進(jìn)行異常檢測(cè)方法匹配,根據(jù)匹配結(jié)果中的異常檢測(cè)方法進(jìn)行檢測(cè);大規(guī)模數(shù)據(jù)特征遍歷,對(duì)每個(gè)數(shù)據(jù)特征進(jìn)行匹配和檢測(cè)。
本發(fā)明的方法庫(kù)設(shè)置是從統(tǒng)計(jì)學(xué)、常識(shí)、自然規(guī)律、專(zhuān)業(yè)通用知識(shí)等角度對(duì)不同的數(shù)據(jù)特征分別設(shè)計(jì)對(duì)應(yīng)的異常檢測(cè)方法,比如數(shù)據(jù)值類(lèi)特征設(shè)計(jì)當(dāng)字段值出現(xiàn)極值時(shí)報(bào)異常、日期特征對(duì)不符合日期格式的字段內(nèi)容報(bào)異常等,方法庫(kù)的設(shè)置根據(jù)實(shí)際使用需求進(jìn)行具體確定,匹配后針對(duì)性地進(jìn)行檢測(cè)。
作為優(yōu)選,所述數(shù)據(jù)異常檢測(cè)方法庫(kù)以字典類(lèi)型存儲(chǔ),數(shù)據(jù)特征名稱(chēng)及其特征參數(shù)組成的元組作為字典的鍵,數(shù)據(jù)特征對(duì)應(yīng)的異常檢測(cè)方法作為字典的值。Python的字典類(lèi)型是個(gè)鍵值對(duì),使用Python的字典類(lèi)型來(lái)存儲(chǔ)數(shù)據(jù)特征及其異常檢測(cè)方法,字典的鍵存儲(chǔ)的是數(shù)據(jù)特征名稱(chēng)及其特征參數(shù)組成的元組,字典的值存儲(chǔ)的是該數(shù)據(jù)特征對(duì)應(yīng)的異常檢測(cè)方法,其中每個(gè)異常檢測(cè)方法的閾值由特征參數(shù)給出,通過(guò)字典的方式存儲(chǔ),可以清楚劃分鍵和值,利于后續(xù)的匹配。
作為優(yōu)選,所述匹配包括以下過(guò)程:對(duì)待處理的數(shù)據(jù)特征名稱(chēng)和異常檢測(cè)方法庫(kù)中的鍵分別嵌入經(jīng)NLP得到的詞向量,計(jì)算詞向量之間的余弦相似度,相似度于閾值的鍵即為該數(shù)據(jù)特征對(duì)應(yīng)的潛在鍵,這些鍵所對(duì)應(yīng)的異常檢測(cè)方法即是匹配結(jié)果。詞向量包含多維數(shù)值,借助余弦相似度,可以較為準(zhǔn)確地判斷和比較。
作為優(yōu)選,所述余弦相似度的計(jì)算公式如下:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于國(guó)家電網(wǎng)有限公司;國(guó)網(wǎng)浙江省電力有限公司,未經(jīng)國(guó)家電網(wǎng)有限公司;國(guó)網(wǎng)浙江省電力有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110671429.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





