[發明專利]一種基于高維空間映射的K調和均值聚類方法無效
| 申請號: | 201110341012.7 | 申請日: | 2011-11-01 |
| 公開(公告)號: | CN102426631A | 公開(公告)日: | 2012-04-25 |
| 發明(設計)人: | 王建宇;康其桔;馬鵬飛;孫麗娟;陸源;何新;王凱;田乃魯 | 申請(專利權)人: | 南京理工大學常熟研究院有限公司 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 215513 江蘇省常*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 空間 映射 調和 均值 方法 | ||
技術領域
本發明涉及計算科學和智能信息處理領域,尤其是對數據集進行聚類的技術,具體地說是一種基于高維空間映射的K調和均值聚類方法。
背景技術
聚類分析作為一種數據預處理方法,是進一步分析和處理數據的基礎,聚類分析在處理大規模數據中成為不可或缺的重要工具。目前,最常用的數據聚類方法是K均值聚類方法,實驗證明,該方法雖能在一定程度上解決智能信息處理過程中的聚類需求,但是該方法對初始化聚類中心的隨機性非常敏感,而且無法解決實際工程應用中的數據混疊問題,所以該方法已經不能適用于當前大規模復雜數據聚類的需求。因此迫切需求一種對初始化聚簇中心不甚敏感且能解決數據混疊問題的聚類方法。
發明內容
本發明的目的在于提供了一種基于高維空間映射的K調和均值聚類方法,該方法能夠使大規模復雜數據聚類結果穩定并且更加準確。
為了實現上述目的,本發明的技術方案是:一種基于高維空間映射的K調和均值聚類方法,其包括如下步驟:
(1)將原始數據處理為空間向量形式,即每個數據樣本都以多維空間向量的形式存在;
(2)選擇數據的初始化聚類中心;
(3)將距離測度映射至高維空間;
(4)將映射后的距離測度帶入計算樣本點的調和距離;
(5)以該調和距離為距離測度進行K均值聚類;
(6)結果輸出。
為了能夠較好地分辨、提取并放大有用的特征,從而實現更為準確的聚類,上述步驟(3)中的距離測度為夾角余弦值,并采用Mercer核函數將夾角余弦值映射到高維空間。
本發明具有以下優點:
本發明針對復雜場合下的數據聚類設計的基于高維空間映射的K調和均值聚類方法可對點狀空間向量數據進行穩定準確地聚類,實現對數據不同類別的聚合操作。在距離度量領域,利用徑向基核函數將余弦度量映射至高維計算,可以對混疊數據進行有效的分離,對于傳統的余弦度量方法,具有很大的優勢。
附圖說明
附圖為本發明方法的流程圖。
具體實施方式
本發明的方法步驟如附圖所示,為了表述清晰,下面將分步驟描述本發明的具體實施例。
(1)數據處理。
本方法的數據基礎是本領域內形式最廣泛的空間向量形式,即每個數據樣本都是以多維空間向量的形式存在。因大多數現實數據都是以多維空間向量的形式出現,故數據處理的具體方法不屬于本發明的內容,本步驟僅為說明本方法所用數據應為空間向量形式的數據。
(2)選擇數據初始化聚類中心。
本發明所涉及到的領域為數據聚類,故應指定數據的預期類別數K。本發明針對預期類別數K,選擇K個初始化聚類中心。因本發明對于初始數據并不敏感,故本實施例為隨機抽取K個數據樣本作為初始化聚類中心,聚類中心集合記為Cl=[Cl1,Cl2,...,Clm],其中l為聚類中心的迭代次數,Clm即為第m個類別第l輪計算后的聚類中心。
(3)將距離測度映射至高維空間。
本實施例的距離測度為夾角余弦值,對于夾角余弦度量進行Mercer核函數映射,因Mercer核函數有重要特性,即將低維數據通過非線性映射至高維后,能夠較好地分辨、提取并放大有用的特征,從而實現更為準確的聚類。不失一般性,本實施例使用Mercer核函數中較為典型的高斯核函數進行說明,經映射之后兩個數據樣本之間的距離測度(式(1))如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學常熟研究院有限公司,未經南京理工大學常熟研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110341012.7/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





