[發明專利]一種K均值聚類算法中心點確定方法及裝置在審
| 申請號: | 202010936076.0 | 申請日: | 2020-09-08 |
| 公開(公告)號: | CN111967536A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 朱永生 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 劉雪萍 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 均值 算法 中心點 確定 方法 裝置 | ||
本發明公開一種K均值聚類算法中心點確定方法及裝置,通過離群因子檢測算法計算各個點的離群因子;將離群因子大于預設值的點去除;對剩余點篩選中心點。本發明首先通過離群因子檢測算法將離群因子過大的點去除,即消除了噪音和異常點的影響,提高算法準確率。優選將離群因子最小的點作為初始中心點,進一步提高算法準確率,使分析結果更貼近于實際數據。
技術領域
本發明涉及K均值聚類算法領域,具體涉及一種K均值聚類算法中心點確定方法及裝置。
背景技術
目前,隨著大數據行業的發展,聚類分類算法已成為數據分析領域必不可少的技術,在各個領域都有廣泛的應用。其中,因思路簡單,易于實現,且聚類速度快的K均值聚類算法(K均值聚類算法)從眾多算法中脫穎而出。K均值聚類聚類的目的是:把N個點(可以是樣本的一次觀察或一個實例)劃分到K個聚類中,使得每個點都屬于離他最近的均值(此即聚類中心)對應的聚類,以之作為聚類的標準。但算法本身存在缺陷,因為聚類之前對要求劃分的類是未知的,因此需要人為的事先確定聚類數目即K的值,還要事先確定種子中心點,這種方式無法消除噪音和異常點,對K均值聚類算法的精確性影響較大。
發明內容
為解決上述問題,本發明提供一種K均值聚類算法中心點確定方法及裝置,提高算法精確度。
本發明的技術方案是:一種K均值聚類算法中心點確定方法,包括以下步驟:
通過離群因子檢測算法計算各個點的離群因子;
將離群因子大于預設值的點去除;
對剩余點篩選中心點。
進一步地,對剩余點篩選中心點包括:
將離群因子最小的點作為初始中心點。
進一步地,對剩余點篩選中心點還包括:
篩選與初始中心點距離最大的點作為第二中心點;
針對其他剩余點,判斷di,i+1≥di,其中di為距離初始中心點第i遠的點與初始中心點之間的距離,di,i+1為距離初始中心點第i遠的點與距離初始中心點第i+1遠的點之間的距離,di+1>di;若某距離初始中心點第i遠的點對所有距離初始中心點第i+1遠的點均滿足上述條件,則該距離初始中心點第i遠的點為中心點,否則為普通點;
進一步地,若與初始中心點距離最大的點多于1個,則隨機選取一個點作為第二中心點。
進一步地,對剩余點篩選中心點還包括:
篩選出初始中心點之后,計算剩余點與初始中心點之間的距離,并按從大到小的順序排序;
針對除第二中心點之外的點,按距離中心點從大到小的順序依次判斷各點是否為中心點。
進一步地,對于距離中心點相同的所有點,并行判斷是否為中心點。
本發明的技術方案還包括一種K均值聚類算法中心點確定方裝置,包括,離群因子計算模塊:通過離群因子檢測算法計算各個點的離群因子;
干擾點去除模塊:將離群因子大于預設值的點去除;
中心點篩選模塊:對剩余點篩選中心點。
進一步地,中心點篩選模塊包括,
初始中心點篩選單元:將離群因子最小的點作為初始中心點。
進一步地,中心點篩選模塊還包括,
第二中心點篩選單元:篩選與初始中心點距離最大的點作為第二中心點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010936076.0/2.html,轉載請聲明來源鉆瓜專利網。





