[發明專利]一種非監督學習識別異常值的方法在審
| 申請號: | 202110103375.0 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112906751A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 王小華;潘曉光;焦璐璐;張娜;張雅娜 | 申請(專利權)人: | 山西三友和智慧信息技術股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00;G06F30/20 |
| 代理公司: | 太原榮信德知識產權代理事務所(特殊普通合伙) 14119 | 代理人: | 楊凱;連慧敏 |
| 地址: | 030006 山西省*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 監督 學習 識別 異常 方法 | ||
1.一種非監督學習識別異常值的方法,其特征在于:包括下列步驟:
S100、設定參數;
S200、在所述設定參數中的第t次迭代中計算輸出異常得分向量ASt;
S300、經過T次迭代后,把異常值得分從高到低排序整合為向量SASt;
S400、向量SASt按照函數F合并為向量ASFINAL;
S500、進行仿真實驗。
2.根據權利要求1所述的一種非監督學習識別異常值的方法,其特征在于:所述S100中設定參數的方法為:設定的參數總共包括T次迭代過程,t=1,2,3…T輪迭代,數據集X的變量數為d,m為數據集樣本量大小,也是每個向量中的數據個數,S是數據集。
3.根據權利要求1所述的一種非監督學習識別異常值的方法,其特征在于:所述S200中,在其中的第t次迭代,隨機不放回的選擇變量數大小為Nt,數值在d/2至d間,構造一個子集Ft,在子集Ft中使用異常值檢測方法LOF,其中LOF為Local outlier factor離群點檢測算法。
4.根據權利要求1所述的一種非監督學習識別異常值的方法,其特征在于:所述S400中,迭代的異常值得分整合得到向量ASFINAL的函數F包括如下兩種方式:
方式一:創造序列Indt,結合數據集Indt信息,組合成數據向量IndFINAL和異常值得分ASFINAL,在將異常值得分排序后,將有最高異常值得分的數據AS1,1,AS2,1.....ASt,1插入到IndFINAL中,再將異常值得分第二高的數據AS1,2,AS2,2.....ASt,2放到IndFINAL后,如果得到的數據已經在IndFINAL出現過,則不再將數據附在IndFINAL后,最終得到與成為異常值的概率對應的數據集IndFINAL,和包括異常值概率的ASFINAL,最終得到IndFINAL中按照異常值得分從大到小排列的各個數據;
方式二:輸出排序后的向量SASt對應的Indt,運用加權平均算出綜合異常值得分為向量ASFINAL,將向量ASFINAL的內部得分排序,得分最高的被認為是異常值。
5.根據權利要求1所述的一種非監督學習識別異常值的方法,其特征在于:所述S400中向量ASFINAL=F(SASt),t=1...T。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西三友和智慧信息技術股份有限公司,未經山西三友和智慧信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110103375.0/1.html,轉載請聲明來源鉆瓜專利網。





