[發(fā)明專利]異常數(shù)據(jù)的檢測方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110166189.1 | 申請日: | 2021-02-03 |
| 公開(公告)號: | CN114861745A | 公開(公告)日: | 2022-08-05 |
| 發(fā)明(設計)人: | 車航宇;魯時雨 | 申請(專利權(quán))人: | 株式會社日立制作所 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/2458;G06F16/23 |
| 代理公司: | 北京銀龍知識產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 黃燦;姜精斌 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 異常 數(shù)據(jù) 檢測 方法 系統(tǒng) | ||
本發(fā)明提供了一種異常數(shù)據(jù)的檢測方法及系統(tǒng),所述方法包括:確定特征向量;獲取歷史特征向量,并生成包括多個所述歷史特征向量的歷史數(shù)據(jù)集;計算所述歷史數(shù)據(jù)集中的每個歷史特征向量與K個最近鄰居的之間的距離的和值,作為每個歷史特征向量的總距離,并根據(jù)所述歷史數(shù)據(jù)集中的總距離的拐點,確定一參考閾值;針對待檢測的第一特征向量,計算該第一特征向量與所述歷史數(shù)據(jù)集中的K個最近鄰居的之間的距離的第一和值,并根據(jù)所述第一和值與所述參考閾值,確定所述第一特征向量是否異常。本發(fā)明能夠針對不同的應用場景,設置合適的異常數(shù)據(jù)檢測的閾值,其計算過程簡單,計算速度較快,且不依賴于數(shù)據(jù)集的標定數(shù)據(jù)。
技術(shù)領域
本發(fā)明涉及數(shù)據(jù)采集和處理技術(shù)領域,具體而言,本發(fā)明涉及一種異常數(shù)據(jù)的檢測方法及系統(tǒng)。
背景技術(shù)
在對現(xiàn)場采集的數(shù)據(jù)進行分析處理時,異常檢測是數(shù)據(jù)分析中很常見的需求。例如,當系統(tǒng)檢測到數(shù)據(jù)異常時,可以提醒管理人員進行故障排查或者提早進行觀察,以盡早發(fā)現(xiàn)故障,或者避免異常數(shù)據(jù)進入后續(xù)的分析流程。
在異常檢測中,通常需要設置異常檢測的閾值,該閾值的設定具有一定的困難。有些數(shù)據(jù)可以依賴于相關(guān)組織或行業(yè)標準等進行閾值設定。例如,室內(nèi)環(huán)境指標(溫濕度,二氧化碳,PM2.5等)可以使用相關(guān)標準設定閾值,當采集到的數(shù)據(jù)超過閾值時即判斷為異常。但是有些數(shù)據(jù)只能依靠經(jīng)驗來判斷數(shù)據(jù)是否異常,從而成本較高,且沒有理論依據(jù),導致最終的異常檢測結(jié)果不夠準確。例如,針對地鐵站客流的異常檢測,電表數(shù)據(jù)的異常檢測等,現(xiàn)有技術(shù)通常都是依賴于檢測人員的經(jīng)驗進行閾值設置,很難找到合適的閾值進行自動化的異常檢測。
現(xiàn)有技術(shù)的一篇中國申請(申請?zhí)?01610911559.9)公開了一種異常數(shù)據(jù)檢測方法,包括以下步驟:將待檢測數(shù)據(jù)集利用主成分算法進行降維處理,形成第一數(shù)據(jù)集;將所述第一數(shù)據(jù)集利用主成分算法進行重構(gòu),形成第二數(shù)據(jù)集,所述第二數(shù)據(jù)集與所述待檢測數(shù)據(jù)集具有相同的維度;計算所述待檢測數(shù)據(jù)集與所述第二數(shù)據(jù)集對應數(shù)據(jù)之間的相關(guān)性;獲取所述待檢測數(shù)據(jù)中與所述第二數(shù)據(jù)集中對應數(shù)據(jù)差異大的異常數(shù)據(jù)。以上方案并未給出如何評價數(shù)據(jù)差異大的標準或閾值,如果僅依賴于檢測人員的經(jīng)驗設置,則難以適用于不同的應用場景,且難以保證最終異常檢測結(jié)果的準確性。因此,亟需一種能夠設置合適的異常檢測閾值并進行異常數(shù)據(jù)檢測的方案,以提高異常數(shù)據(jù)檢測的準確性。
發(fā)明內(nèi)容
本發(fā)明實施例要解決的技術(shù)問題是提供一種異常數(shù)據(jù)的檢測方法及系統(tǒng),通過設置合適的異常數(shù)據(jù)檢測的閾值,提高異常數(shù)據(jù)的檢測結(jié)果的準確性。
為解決上述技術(shù)問題,本發(fā)明實施例提供的異常數(shù)據(jù)的檢測方法,包括:
確定特征向量,所述特征向量由目標應用場景下需要檢測的目標參數(shù)以及與所述目標參數(shù)相關(guān)的至少一個條件參數(shù)構(gòu)成;
獲取預先采集到的所述目標參數(shù)和所述至少一個條件參數(shù)的歷史參數(shù)值,得到所述歷史參數(shù)值對應的歷史特征向量,并生成包括多個所述歷史特征向量的歷史數(shù)據(jù)集;
計算所述歷史數(shù)據(jù)集中的每個歷史特征向量與K個最近鄰居的之間的距離的和值,作為每個歷史特征向量的總距離,并根據(jù)所述歷史數(shù)據(jù)集中的總距離的拐點,確定一參考閾值;
針對待檢測的第一特征向量,計算該第一特征向量與所述歷史數(shù)據(jù)集中的K個最近鄰居的之間的距離的第一和值,并根據(jù)所述第一和值與所述參考閾值,確定所述第一特征向量是否異常。
可選的,所述根據(jù)所述歷史數(shù)據(jù)集中的總距離的拐點,確定一參考閾值,包括:
按照從大到小的順序,對所述歷史數(shù)據(jù)集中的總距離排序,得到一個總距離的數(shù)值序列;
對所述數(shù)值序列進行曲線擬合,得到一擬合曲線;
計算所述擬合曲線中的拐點,并根據(jù)所述拐點對應的總距離,確定所述參考閾值。
可選的,所述根據(jù)所述歷史數(shù)據(jù)集中的總距離的拐點,確定一參考閾值,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社日立制作所,未經(jīng)株式會社日立制作所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110166189.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





