[發(fā)明專利]一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110671429.3 | 申請(qǐng)日: | 2021-06-17 |
| 公開(公告)號(hào): | CN113569006A | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計(jì))人: | 葛俊;梁云丹;黃建平;張旭東;張建松;陳浩 | 申請(qǐng)(專利權(quán))人: | 國(guó)家電網(wǎng)有限公司;國(guó)網(wǎng)浙江省電力有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F40/242 |
| 代理公司: | 杭州華鼎知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33217 | 代理人: | 項(xiàng)軍 |
| 地址: | 100017 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 特征 大規(guī)模 質(zhì)量 異常 檢測(cè) 方法 | ||
1.一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,其特征在于,包括以下步驟:
構(gòu)建數(shù)據(jù)異常檢測(cè)方法庫(kù),根據(jù)每種數(shù)據(jù)特征設(shè)置對(duì)應(yīng)的檢測(cè)方法,匯總形成數(shù)據(jù)異常檢測(cè)方法庫(kù);
對(duì)數(shù)據(jù)特征進(jìn)行異常檢測(cè)方法匹配,根據(jù)匹配結(jié)果中的異常檢測(cè)方法進(jìn)行檢測(cè);
大規(guī)模數(shù)據(jù)特征遍歷,對(duì)每個(gè)數(shù)據(jù)特征進(jìn)行匹配和檢測(cè)。
2.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,其特征在于,所述數(shù)據(jù)異常檢測(cè)方法庫(kù)以字典類型存儲(chǔ),數(shù)據(jù)特征名稱及其特征參數(shù)組成的元組作為字典的鍵,數(shù)據(jù)特征對(duì)應(yīng)的異常檢測(cè)方法作為字典的值。
3.根據(jù)權(quán)利要求2所述的一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,其特征在于,所述匹配包括以下過程:對(duì)待處理的數(shù)據(jù)特征名稱和異常檢測(cè)方法庫(kù)中的鍵分別嵌入經(jīng)NLP得到的詞向量,計(jì)算詞向量之間的余弦相似度,相似度于閾值的鍵即為該數(shù)據(jù)特征對(duì)應(yīng)的潛在鍵,這些鍵所對(duì)應(yīng)的異常檢測(cè)方法即是匹配結(jié)果。
4.根據(jù)權(quán)利要求3所述的一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,其特征在于,所述余弦相似度的計(jì)算公式如下:
其中u和v分別表示兩個(gè)詞向量。
5.根據(jù)權(quán)利要求3或4所述的一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,其特征在于,所述大規(guī)模數(shù)據(jù)特征遍歷過程包括:將待匹配的詞向量中每一維度數(shù)值按比例縮放至0到255范圍內(nèi),以依次展開排列的n個(gè)像素點(diǎn)陣列表示每個(gè)詞向量,其中n為詞向量的維度,該詞向量每個(gè)維度的值為每個(gè)像素點(diǎn)的灰度值,以將像素點(diǎn)陣列所表示的圖像復(fù)制至m個(gè)像素點(diǎn)的白底圖片中得到復(fù)刻圖,其中m為n的x^2倍,x為大于等于2的自然數(shù),降低復(fù)刻圖的像素至n,讀取每個(gè)像素的灰度值,組成新的特殊詞向量,使用特殊詞向量進(jìn)行余弦相似度的計(jì)算以減少大規(guī)模數(shù)據(jù)量下的計(jì)算強(qiáng)度。
6.根據(jù)權(quán)利要求3或4所述的一種基于數(shù)據(jù)特征的大規(guī)模數(shù)據(jù)質(zhì)量異常檢測(cè)方法,其特征在于,所述大規(guī)模數(shù)據(jù)特征遍歷過程包括:將待匹配的詞向量中每一維度數(shù)值按比例縮放至0到255范圍內(nèi),并將0至225分為若干階,將每個(gè)維度的數(shù)值修改為該數(shù)值對(duì)應(yīng)階內(nèi)的中間數(shù),生成新的特殊詞向量,使用特殊詞向量進(jìn)行余弦相似度的計(jì)算以減少大規(guī)模數(shù)據(jù)量下的計(jì)算強(qiáng)度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)家電網(wǎng)有限公司;國(guó)網(wǎng)浙江省電力有限公司,未經(jīng)國(guó)家電網(wǎng)有限公司;國(guó)網(wǎng)浙江省電力有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110671429.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





