[發明專利]一種基于互信息的混合屬性加權離群檢測算法在審
| 申請號: | 202011444658.3 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN113033594A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 李俊麗 | 申請(專利權)人: | 晉中學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 太原高欣科創專利代理事務所(普通合伙) 14109 | 代理人: | 崔浩;冷錦超 |
| 地址: | 030619 山*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 互信 混合 屬性 加權 離群 檢測 算法 | ||
1.一種基于互信息的混合屬性加權離群檢測算法,其特征在于:包括如下步驟:
步驟一:計算混合屬性數據集數值空間和分類空間中各個屬性的權值:
步驟1.1:互信息計算:分別計算混合屬性數據集中的離散變量和連續變量的互信息;
步驟1.2:混合屬性加權機制計算:給定一個混合屬性數據集,定義任意屬性的權值度量為該屬性到其他屬性互信息的平均值;
步驟二:計算每個數據對象在數值空間中的離群得分;
步驟三:計算每個數據對象在分類空間中的離群得分;
步驟四:通過步驟二和步驟三的離群得分綜合得到每個混合屬性數據對象的最終離群得分,并選出離群得分最高的離群數據對象。
2.根據權利要求1所述的一種基于互信息的混合屬性加權離群檢測算法,其特征在于:所述步驟1.1中離散變量的互信息計算如下:
給定一個包含n個數據對象的數據集DS,每個對象都由m個特征表示,用MI(yi:yj)表示數據集上計算的特征yi和yj之間的互信息,其中互信息的計算公式為:
上式中:Pij(yi=vik∧yj=vjl)為特征yi和yj分別等于vik和vjl的概率,di和dj為特征yi和yj的分類值個數,vik和vjl為集合D(yi)和D(yj)中的值,其中D(yi)={vi1,…,vidi},D(yj)={vj1,…,vjdj}。
3.根據權利要求2所述的一種基于互信息的混合屬性加權離群檢測算法,其特征在于:所述步驟1.1中連續變量的互信息計算步驟如下:
步驟12.1:用Parzen窗口估計法對隨機變量的概率分布進行估計:定義數據集X={x1,x2,…,xn}由n個數據對象和m個屬性組成,概率密度函數的估計為:
上式中:δ(·)為parzen窗口函數,h為窗口寬度;
步驟12.2:根據Gaussian窗口函數計算概率密度,計算公式為:
上式中:m為數據集的維度,z=x-xi,∑為z的協方差矩陣,h為窗口寬度的經驗值,計算公式為:
步驟12.3:對兩個連續隨機變量,取維度m=2,根據步驟12.1和步驟12.2計算的概率密度估計兩個連續變量的互信息。
4.根據權利要求3所述的一種基于互信息的混合屬性加權離群檢測算法,其特征在于:所述步驟1.2中混合屬性加權機制的計算步驟如下:
步驟1.21:給定一個混合屬性數據集O,O={o1,o2…,on}代表數據集的n個數據對象,數據集的屬性集合Y由共m個屬性組成;
其中,數值型屬性有p個,分別為分類型屬性有m-p個,分別為
分類型屬性的值域表示為其中dj表示分類型屬性中值域的數量;
混合屬性數據集中的對象Oi∈O用一個m維向量表示,即其中
步驟1.22:對于任意屬性yj,其屬性權值度量定義為該屬性到其他屬性的互信息的平均值,計算公式為:
上式中:MI(yi:yj)表示數據集上計算的的特征yi和yj之間的互信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于晉中學院,未經晉中學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011444658.3/1.html,轉載請聲明來源鉆瓜專利網。





