[發(fā)明專利]一種高維大數據離群點檢測方法在審
| 申請?zhí)枺?/td> | 202110354524.0 | 申請日: | 2021-04-01 |
| 公開(公告)號: | CN112905583A | 公開(公告)日: | 2021-06-04 |
| 發(fā)明(設計)人: | 郭鵬飛;李鑫 | 申請(專利權)人: | 遼寧工程技術大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/28;G06N5/00 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 125105 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高維大 數據 離群 檢測 方法 | ||
1.一種高維大數據離群點檢測方法,其特征在于,包括:
步驟1:利用主成分分析法對輸入的高維大數據進行降維處理;
步驟2:對降維后的數據用iForest算法進行異常值檢測。
2.根據權利要求1所述的高維大數據離群點檢測方法,其特征在于,步驟1所述的利用主成分分析法對輸入的高維大數據進行降維處理,包括如下內容:首先分別求解大數據樣本點各屬性的屬性值的平均值,使各屬性的每一屬性值減去對應的平均值;然后將每個屬性值作為變量,根據各屬性值與對應的平均值的差值,求解屬性的協方差矩陣;再然后通過協方差矩陣求解特征值和特征向量;又然后將特征值按照從大到小的順序排序,選擇其中最大的k個,最后將其對應的k個特征向量分別作為列向量組成特征向量矩陣,并將樣本點投影到選取的k個特征向量上。
3.根據權利要求1或2所述的高維大數據離群點檢測方法,其特征在于,所述步驟2為對降維后的數據用基于k-means的iForest算法進行異常值檢測。
4.根據權利要求3所述的高維大數據離群點檢測方法,其特征在于,所述步驟2包括如下步驟:
步驟2.1:從降維處理后得到的一組連續(xù)性數據組成的訓練集中隨機選擇多個樣本數據點作為子采樣集,將該子采樣集作為iTree的根節(jié)點;
步驟2.2:從當前子采樣集中隨機選擇一個維度,維度的值構成一個集合,利用k-means聚類算法將該集合的最大值和最小值之間的數值分為多個簇,每個簇作為一個子節(jié)點;
步驟2.3:對步驟2.2得到的子節(jié)點隨機選擇一個其他維度,再利用k-means聚類算法將每個子節(jié)點的最大值和最小值之間的數值分為多個簇,每個簇作為一個新的子節(jié)點;
步驟2.4:按照步驟2.2和2.3的方法,重復執(zhí)行步驟2.3,不斷構造新的子節(jié)點,直至滿足停止條件;
步驟2.5:重復執(zhí)行步驟2.1至2.4,直至iTree的數量達到指定數量,由這些iTree組成一個iForest;
步驟2.6:通過遍歷iForest,對任一查詢數據x進行評分,并根據查詢數據x的得分進行異常值檢測;
通過對iForest中iTree的遍歷,獲得對象x在不同聚類中的得分值:
其中,d(x,cq)表示對象x到聚類中心cq的距離;d(cl,cq)代表聚類半徑;cl代表距離聚類中心cq最遠的對象;s被視為對象x在聚類中的得分;
對象x的最終得分是其在不同聚類中的得分值的總和除以iTree個數,即:
其中,sj(x)為對象x在第j聚類中的得分;N為iForest中iTree的數量;M為iTree中聚類的數量。
5.根據權利要求4所述的高維大數據離群點檢測方法,其特征在于,步驟2.4中所述的停止條件為下列條件之一:
①D中只剩下一個數據點或者多個相同的數據點;
②iTree的高度達到限定高度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧工程技術大學,未經遼寧工程技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110354524.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種消防氣體偵檢模擬訓練裝置
- 下一篇:密封條切割設備的切割裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統、數據發(fā)送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





