[發明專利]基于改進的局部異常因子檢測的數據分類方法在審
| 申請號: | 201910368828.5 | 申請日: | 2019-05-05 |
| 公開(公告)號: | CN110083665A | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 游子毅 | 申請(專利權)人: | 貴州師范大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06K9/62 |
| 代理公司: | 貴陽東圣專利商標事務有限公司 52002 | 代理人: | 袁慶云 |
| 地址: | 550001 貴州*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類中心 初始聚類中心 數據分類 異常因子 因子檢測 標準化 相似性度量 自適應調整 迭代優化 距離參數 候選集 檢測 迭代 離差 算法 改進 篩選 優化 | ||
本發明公開了基于改進的局部異常因子檢測的數據分類方法,包括:離群因子檢測;相似性度量;初始聚類中心點的選取,通過自適應調整k距離參數的局部離群因子檢測LOF算法篩選出離群因子較小的數據作為初始聚類中心的候選集;聚類中心的迭代優化。在優化聚類中心迭代階段,利用離差標準化對數據間的離群因子進行標準化,使得新離群因子new_ri的取值范圍為大于等于1。本發明提高對聚類中心定位以及簇劃分的精確度。
技術領域
本發明屬于數據處理技術領域,具體來說涉及基于改進的局部異常因子檢測的數據分類方法。
背景技術
目前,利用聚類分析實現數據的分類已成為數據挖掘領域中必不可少的技術,在商業、保險行業、生物學、電子商務等領域具有廣泛的應用前景。
聚類算法種類繁多,包括基于距離劃分的K-means算法、基于隸屬度劃分的FCM模糊聚類等。其中K-means算法具有思路簡單、易于實現且聚類速度快的優點,但其聚類中心易受離群點和異常點的影響而導致聚類陷入局部最優。因此,該算法在數據分類上的應用及優化一直備受關注。在已見報道中,唐東凱等[12]針對初始聚類中心的優化提出了改進方案。該方案利用各數據的離群因子縮小初始聚類中心的候選集,緩減了離群點對選取初始聚類中心的干擾。Mahdi Hashemzadeh等使用集群加權的方法減輕FCM的初始化靈敏度,并提出自動局部特征加權方法適當地加權每個簇的特征,以提高聚類的準確率。Teng Li等通過潛變量(MKKLV)算法開發并提出了一種多核k-means聚類,可以針對每個樣本自適應地調整基礎核。Ravi Sankar等提出了利用信息熵的相似系數分析k-modes算法的時間復雜度,以在保持k-modes算法的可擴展性同時提高了聚類精度。R.J等將遺傳算法與模糊k-modes算法相結合,優化了初始聚類中心點的選取。但是,以上針對K-means算法的改進均沒有考慮到簇內數據的相關性,這往往導致聚類結果準確率穩定性差從而達不到預期要求。
發明內容
本發明的目的在于克服上述缺點而提供的一種提高對聚類中心定位以及簇劃分的精確度的基于改進的局部異常因子檢測的數據分類方法。
本發明目的及解決其主要技術問題是采用以下技術方案來實現的:
本發明的基于改進的局部異常因子檢測的數據分類方法,包括以下步驟:
(1)離群因子檢測
根據原始K-means算法在選取聚類中心點時的缺陷,提出了依據數據集中每個數據點的離群因子來排除離群點的方法,得出離群因子的計算公式(I)如下:
表示為點p的領域點Nk(p)的局部可達密度與點p的局部可達密度之比的平均值;
如果LOF值趨向1,說明p與其領域點的密度相近,p與該領域屬于同一簇的可能性大;LOF越小于1,說明p的密度高于其領域點密度,即p為密集點;相反,LOF越大于1,則p越可能是異常點;
(2)相似性度量
對數據集的每一個屬性如公式(II)進行初步的預處理:
Xij=xij/max(xij) (II)
其中,max(xij)表示數據第j列的最大值;
分別根據公式(III)和(IV)計算出數據中每個屬性的熵值與權值:
根據公式(V)計算出來的權值計算數據點之間加權歐式距離:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州師范大學,未經貴州師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910368828.5/2.html,轉載請聲明來源鉆瓜專利網。





