[發(fā)明專利]一種異常檢測方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010567982.8 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111740991B | 公開(公告)日: | 2022-08-09 |
| 發(fā)明(設(shè)計(jì))人: | 張鵬飛 | 申請(專利權(quán))人: | 上海儀電(集團(tuán))有限公司中央研究院 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;H04L41/14;H04L41/147 |
| 代理公司: | 上海容慧專利代理事務(wù)所(普通合伙) 31287 | 代理人: | 于曉菁 |
| 地址: | 200233 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 異常 檢測 方法 系統(tǒng) | ||
本發(fā)明涉及信息數(shù)據(jù)處理技術(shù)領(lǐng)域,具體的講是一種異常檢測方法,利用無監(jiān)督模型和有監(jiān)督模型互相打偽標(biāo)簽的處理對少量標(biāo)簽集進(jìn)行,得到正負(fù)標(biāo)簽集,然后進(jìn)行迭代處理,直到正負(fù)標(biāo)簽集表現(xiàn)收斂為止,為此本發(fā)明還設(shè)計(jì)了異常檢測系統(tǒng),包括用于數(shù)據(jù)集獲取的數(shù)據(jù)獲取單元,將無監(jiān)督模型與有監(jiān)督模型進(jìn)行訓(xùn)練擬合與無標(biāo)記數(shù)據(jù)預(yù)測的模型預(yù)測單元,集成預(yù)測后正負(fù)樣本集并將回傳數(shù)據(jù)獲取單元進(jìn)行數(shù)據(jù)集更新的訓(xùn)練集更新單元,用于判斷正負(fù)樣本集是否收斂的判斷單元,用于測試集異常點(diǎn)檢測的檢測單元,本發(fā)明可以提高分工打標(biāo)簽的準(zhǔn)確性、召回率和精度等指標(biāo),從而解決在標(biāo)記數(shù)量有限的情況下,異常點(diǎn)檢測置信度低、精準(zhǔn)度差的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及信息數(shù)據(jù)處理技術(shù)領(lǐng)域,具體的講是一種異常檢測方法及系統(tǒng)。
背景技術(shù)
異常點(diǎn)檢測,也稱作離群值檢測,指的是找出和正常數(shù)據(jù)顯著不同的數(shù)據(jù)點(diǎn)的任務(wù)。
異常點(diǎn)通常占總體數(shù)據(jù)規(guī)模很小,但是與正常點(diǎn)相比,它們意味著與眾不同的信息。因此異常件檢測任務(wù)通常能解決相關(guān)領(lǐng)域的重要問題,引起重大發(fā)現(xiàn)。比如新型疾病監(jiān)測、信用卡欺詐識別、網(wǎng)絡(luò)安全攻擊、交通異常狀況以及行星探測等。
檢測方法有無監(jiān)督、有監(jiān)督和半監(jiān)督的方法,具體使用通常根據(jù)訓(xùn)練樣本的標(biāo)記情況而定。
無監(jiān)督方法不需借助數(shù)據(jù)標(biāo)簽但性能有限,有監(jiān)督學(xué)習(xí)面臨新型傳染病或未知故障檢測等類似的監(jiān)測任務(wù)時(shí)難以派上用場,半監(jiān)督學(xué)習(xí)對數(shù)據(jù)標(biāo)記要求較低,能夠充分利用無標(biāo)簽數(shù)據(jù)中的信息提高檢測準(zhǔn)確度,但是在標(biāo)記數(shù)量極少的時(shí)候,半監(jiān)督學(xué)習(xí)的效果并不穩(wěn)定。
因此如何在精確而有代表性的標(biāo)記獲取難度大的情況下,最大限度的提升異常點(diǎn)檢測的準(zhǔn)確性具有重要的現(xiàn)實(shí)意義。
發(fā)明內(nèi)容
本發(fā)明突破了現(xiàn)有技術(shù)的難題,設(shè)計(jì)了一種在可用標(biāo)簽數(shù)據(jù)極其稀少的情況下也可以穩(wěn)定精確的檢測異常點(diǎn)的檢測方法及系統(tǒng)。
為了達(dá)到上述目的,本發(fā)明設(shè)計(jì)了一種異常檢測方法,其特征在于:具體的異常檢測方法如下:接收終端設(shè)備發(fā)送的異常檢測要求與待異常檢測的少量標(biāo)簽集,根據(jù)少量標(biāo)簽集的情況,對少量標(biāo)簽集進(jìn)行無監(jiān)督模型和有監(jiān)督模型互相打偽標(biāo)簽的處理,形成正負(fù)標(biāo)簽集,然后對正負(fù)標(biāo)簽集迭代進(jìn)行無監(jiān)督模型和有監(jiān)督模型互相打偽標(biāo)簽的處理,直到正負(fù)標(biāo)簽集表現(xiàn)收斂為止,獲得檢測打標(biāo)完成的異常結(jié)果數(shù)據(jù)集。
進(jìn)一步的,正負(fù)標(biāo)簽集為經(jīng)過無監(jiān)督預(yù)測后打標(biāo)為“0”的樣本集與經(jīng)過有監(jiān)督預(yù)測后打標(biāo)為“1”的樣本集。
進(jìn)一步的,無監(jiān)督模型和有監(jiān)督模型互相打偽標(biāo)簽的處理的具體步驟為:
S1設(shè)定異常點(diǎn)比例參數(shù),將全部數(shù)據(jù)集作為訓(xùn)練集,對無監(jiān)督模型進(jìn)行訓(xùn)練;
S2對無標(biāo)簽數(shù)據(jù)集U進(jìn)行無監(jiān)督模型預(yù)測,將正常樣本標(biāo)簽為“0”,正常樣本標(biāo)簽集為L0;
S3在標(biāo)記數(shù)量達(dá)到有監(jiān)督模型訓(xùn)練要求時(shí),將數(shù)據(jù)集中少量帶有標(biāo)簽的數(shù)據(jù)集L作為訓(xùn)練集,通過增加樣本權(quán)重的方式提高有監(jiān)督模型分類能力,同時(shí)將class_weight參數(shù)設(shè)置為’balanced’,進(jìn)行有監(jiān)督模型的訓(xùn)練;
S4對無標(biāo)簽數(shù)據(jù)集U進(jìn)行有監(jiān)督模型預(yù)測,將異常樣本標(biāo)簽為“1”,異常樣本標(biāo)簽集為L1;
S5將L0與L1共同放進(jìn)訓(xùn)練集,稱為正負(fù)標(biāo)簽集,將有標(biāo)簽訓(xùn)練集L更新為Li,無標(biāo)簽訓(xùn)練集U更新為Ui。
進(jìn)一步的,異常檢測方法還包括測試集異常點(diǎn)檢測。
進(jìn)一步的,S2中無監(jiān)督模型預(yù)測的具體方法為:利用訓(xùn)練好的無監(jiān)督模型對無標(biāo)簽數(shù)據(jù)集U進(jìn)行預(yù)測,根據(jù)設(shè)定的異常點(diǎn)比例參數(shù),當(dāng)異常點(diǎn)得分超過一定閾值的樣本被判定為異常樣本,打標(biāo)簽為“1”,其余樣本則為無監(jiān)督模型預(yù)測后的正常樣本,打標(biāo)簽為“0”,并將正常樣本集成數(shù)據(jù)集L0。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海儀電(集團(tuán))有限公司中央研究院,未經(jīng)上海儀電(集團(tuán))有限公司中央研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010567982.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





