[發明專利]一種基于模糊距離的不確定離群點檢測方法在審
| 申請號: | 201510752402.1 | 申請日: | 2015-11-06 |
| 公開(公告)號: | CN105426907A | 公開(公告)日: | 2016-03-23 |
| 發明(設計)人: | 劉文婷 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模糊 距離 不確定 離群 檢測 方法 | ||
技術領域
本發明涉及數據挖掘技術領域,尤其涉及一種基于模糊距離的不確定離群點檢測方法。
背景技術
離群數據挖掘技術是目前數據挖掘領域的研究熱點之一,目前已有的離群數據挖掘主要基于距離或最近鄰概念進行的確定離群挖掘,隨著互聯網和移動互聯網的廣泛普及,大量的不確定數據在金融和經濟分析、電子通信、現代物流等不同領域廣泛應用,數據本身的不確定性,難以準確判斷數據是否異常,導致難以給出確切的離群數據。在不確定的數據集,即使一個數據點本身并不像是一個離群點,但如果它的不確定程度非常高,這個數據也很可能會被懷疑是異常的。因此基于不確定數據集的離群檢測,需要確定每個數據的不確定程度即離群度。
發明內容
本發明所要解決的技術問題在于,提供一種基于模糊距離的不確定離群點檢測方法,可以有效地從不確定數據集中發現隱藏在其中的離群數據,確定每個數據的離群度,可以廣泛應用于金融和經濟分析、電子通信、現代物流等領域。
為了解決上述技術問題,本發明提供了一種基于模糊距離的不確定離群點檢測方法,包括:
計算不確定數據集中,各數據點到其對應鄰域中的每一數據點的模糊距離;
對所述各數據點到其鄰域中的每一數據點的模糊距離進行加權計算,得到各數據點的鄰域平均距離;
根據所述鄰域平均距離計算得到各數據點的可達距離;
根據所述可達距離計算各個數據點的離群度,并選擇離群度大于預設閾值的數據點為離群點。
進一步的,所述計算不確定數據集中,各數據點到其對應鄰域中的每一數據點的模糊距離,具體包括:
將不確定數據集形式化;其中,形式化后的不確定數據集為D={X1,X2,…,Xn},其中,n表示不確定數據集D的大小,Xi表示數據集中的第i個元組,Xi之間相互獨立,且Xi=〈r(Xi),p(Xi)〉,r(Xi)表示數據記錄,p(Xi)表示數據記錄的概率值;
根據所述不確定數據集建立可能世界實例,并計算所述可能世界實例的概率均值;其中,對不確定數據集中的數據點o建立的可能世界實例為可能世界實例W(o)的概率均值為|W(o)|表示W(o)中數據點的個數;
根據建立的可能世界實例計算數據點和其鄰域中的每一數據點的模糊距離;其中,數據點o到其鄰域中的數據點p的模糊距離為ud(p,o)=pN(o)d(o,p),p∈N(o),式中,d(o,p)=|o-p|為數據點o、p之間的距離,且p≠o}表示數據點o的鄰域,pN(o)為數據點o的鄰域N(o)的概率。
進一步的,所述對所述各數據點和其鄰域中的每一對象的模糊距離進行加權計算,得到各數據點的鄰域平均距離,具體包括:
對所述各數據點和其鄰域中的每一對象的模糊距離進行加權計算,得到各數據點的鄰域平均距離,其中,數據點o的鄰域平均距離為式中,|N(o)|表示N(o)數據點的個數。
進一步的,所述根據所述鄰域平均距離計算得到各數據點的可達距離,具體包括:
根據所述鄰域平均距離選取各數據點的最小鄰域;其中,數據點o的最小鄰域N(o)min為N(o)中滿足條件pN(o)≥θ和Ravg(N(o))最小的鄰域,θ表示閾值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510752402.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種平胸龜的仿生態養殖方法
- 下一篇:管角螺網籠吊養養殖方法





