[發(fā)明專利]一種基于兩步聚類算法的異常數(shù)據(jù)診斷方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110062362.3 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112765142A | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設計)人: | 汪尚;閆秀媛 | 申請(專利權(quán))人: | 北京易萊信科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/28;G06K9/62 |
| 代理公司: | 北京聿華聯(lián)合知識產(chǎn)權(quán)代理有限公司 11611 | 代理人: | 張文娟 |
| 地址: | 101100 北京市通*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 兩步聚類 算法 異常 數(shù)據(jù) 診斷 方法 系統(tǒng) | ||
本發(fā)明提供了一種基于兩步聚類算法的異常數(shù)據(jù)診斷方法及系統(tǒng),該方法包括:用于對具備診斷需求的數(shù)據(jù)進行自定義類別劃分,確定診斷類的診斷類定義步驟,用于基于確定的診斷類按照設定策略應用兩步聚類算法進行聚類處理的數(shù)據(jù)聚類步驟和用于對聚類處理后的數(shù)據(jù)進行分析和計算,確定各數(shù)據(jù)的異常指數(shù)并發(fā)現(xiàn)目標異常數(shù)據(jù)的異常診斷步驟。采用上述方案,以兩步聚類算法為基礎,基于聚類形成的分類和分類對應的數(shù)據(jù)距離進行異常數(shù)據(jù)的診斷,能夠克服現(xiàn)有診斷技術(shù)存在的應用數(shù)據(jù)類型和數(shù)據(jù)場景局限,且能夠適用于所有具備診斷需求的用戶,實用性更佳,為各用戶提供更穩(wěn)定更精確的數(shù)據(jù)診斷結(jié)果,有利于為數(shù)據(jù)分析和處理工作提供可靠的資源基礎。
技術(shù)領域
本發(fā)明涉及數(shù)據(jù)清洗及處理技術(shù)領域,尤其涉及一種基于兩步聚類算法的異常數(shù)據(jù)診斷方法及系統(tǒng)。
背景技術(shù)
數(shù)據(jù)清理是數(shù)據(jù)分析的一個重要步驟,而異常數(shù)據(jù)的識別和處理是有效進行數(shù)據(jù)清理和數(shù)據(jù)分析的基石。現(xiàn)有的研究人員多基于以下類型的異常數(shù)據(jù)識別方法進行異常數(shù)據(jù)的診斷:
1、基于數(shù)據(jù)特征進行識別的方法,常用的該類型識別方法包括箱型圖分析法、標準化法和距離識別法,其中,箱型圖分析法通過分析識別超過上下四分位點以外一定范圍的數(shù)據(jù),將滿足的數(shù)據(jù)定義為異常數(shù)據(jù)。標準化法是通過計算各數(shù)據(jù)的正態(tài)標準化值,將正態(tài)標準化值超過設定值的數(shù)據(jù)定義為異常數(shù)據(jù)。應用距離識別法進行異常數(shù)據(jù)診斷時,是基于設置的基準點開展針對各個數(shù)據(jù)對應樣本點的歐氏距離或馬氏距離計算,將計算結(jié)果滿足設定條件的數(shù)據(jù)定義為異常數(shù)據(jù)。
2.模型識別法;這類方法屬于簡單有監(jiān)督識別,常見的模型識別方法包括貝葉斯識別法,決策樹識別法,線性回歸識別法等。應用這類方法實現(xiàn)異常數(shù)據(jù)診斷時,通過根據(jù)數(shù)據(jù)所對應的特征,去擬合獲取一個盡可能符合要求的模型,后續(xù)直接應用擬合得到模型的預測功能對數(shù)據(jù)的性能進行判斷,也就是利用能夠代表大多數(shù)數(shù)據(jù)判斷結(jié)果的模型去判斷實際數(shù)據(jù)是否異常。以線性回歸識別為例,其首先通過從大量數(shù)據(jù)中挖掘自變量和因變量的關(guān)系,建立兩者之間的數(shù)據(jù)預測模型以代表所有樣本數(shù)據(jù)中的共同趨勢;然后將預測模型應用到待診斷的數(shù)據(jù)中,選取實際值與預測值差距比較大的數(shù)據(jù),定義為異常數(shù)據(jù)。
上述兩種類型的異常數(shù)據(jù)識別方法中,基于數(shù)據(jù)特征識別的方法通常只能考慮特定的數(shù)據(jù)特征因素,必然導致數(shù)據(jù)診斷的結(jié)果精確度不足,實際應用時可能會導致錯失重要數(shù)據(jù),無法滿足數(shù)據(jù)診斷的實際要求,且基于數(shù)據(jù)特征識別的方法一般只適用于數(shù)值型變量。相對于根據(jù)數(shù)據(jù)特征進行異常識別的方法,模型識別雖然可以同時考慮多個影響因素,但是其應用領域存在局限性,通常適用于分類型數(shù)據(jù)(例如男/女)和數(shù)值型數(shù)據(jù)(例如身高/體重)兩種數(shù)據(jù),且使用模型識別方法進行數(shù)據(jù)診斷時存在以下:
1).預測模型的選擇并不是一個簡單的是/非兩個選項,很多時候根據(jù)用戶模型算法的選擇,參數(shù)的選擇而不同,而評估指標通常也不止一個,因此不同的用戶可能會選擇不同的預測模型,異常數(shù)據(jù)診斷結(jié)果對預測模型的選擇依賴性過高,這就導致對用戶的數(shù)據(jù)處理和分析專業(yè)能力要求比較高,適用性不佳;
2).預測模型的可靠性無法得到保障,即各個類型數(shù)據(jù)對應的預測模型的質(zhì)量都需要依靠海量的數(shù)據(jù)進行運算和擬合來保障,數(shù)據(jù)處理量大,運算過程繁瑣,否則模型并不能真正代表數(shù)據(jù)的整體趨勢;
3).對于非監(jiān)督類的數(shù)據(jù)診斷場景,該類方法則難以有效應用,通常這類方法應用于同時存在自變量(原因)和因變量(結(jié)果)兩類參量的數(shù)據(jù),如果針對無監(jiān)督的場景或者原始數(shù)據(jù)不存在明顯有效的趨勢性特使時,則無法建立預測模型,由此可見,模型識別類的方法穩(wěn)定性和一致性不佳,大大的限制了其對于不同數(shù)據(jù)場景的實用性。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供了一種基于兩步聚類算法的異常數(shù)據(jù)診斷方法,在一個實施例中,所述方法包括:
診斷類定義步驟、執(zhí)行診斷操作前,對具備診斷需求的數(shù)據(jù)進行自定義類別劃分,確定用于作為聚類輔助設置信息的診斷類;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京易萊信科技有限公司,未經(jīng)北京易萊信科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110062362.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于時間窗口的實時交通狀況判別方法
- 一種基于多步聚類的重名消歧方法
- 一種智能制定電力客戶削峰填谷策略的方法
- 基于電子商務評論數(shù)據(jù)的非聚類中心節(jié)點分配方法及裝置
- 一種基于兩步聚類和檢測片分析聯(lián)合算法的LDoS檢測方法
- 一種基于眼動軌跡數(shù)據(jù)兩步聚類的圖像感興趣區(qū)域提取方法和系統(tǒng)
- 一種含有硫正離子的抗菌聚類肽高分子的制備方法
- 一種基于兩步聚類算法的異常數(shù)據(jù)診斷方法及系統(tǒng)
- 基于開源數(shù)據(jù)挖掘的商業(yè)網(wǎng)點選址方法、系統(tǒng)、設備及介質(zhì)
- 兩步聚套管釬接工藝





